論文の概要: Active Learning from the Web
- arxiv url: http://arxiv.org/abs/2210.08205v1
- Date: Sat, 15 Oct 2022 05:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:14:39.745884
- Title: Active Learning from the Web
- Title(参考訳): Webからのアクティブラーニング
- Authors: Ryoma Sato
- Abstract要約: プールベースのアクティブラーニングは、ラベル付けされたデータのプールを構築し、必要なラベルの総数が最小になるように反復的にラベル付けされるデータを選択する。
本研究では,ユーザ側情報検索アルゴリズムを用いて,Webからの能動的学習の観点から情報検索を行う効率的なシーファリング手法を提案する。
- 参考スコア(独自算出の注目度): 6.09170287691728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling data is one of the most costly processes in machine learning
pipelines. Active learning is a standard approach to alleviating this problem.
Pool-based active learning first builds a pool of unlabelled data and
iteratively selects data to be labeled so that the total number of required
labels is minimized, keeping the model performance high. Many effective
criteria for choosing data from the pool have been proposed in the literature.
However, how to build the pool is less explored. Specifically, most of the
methods assume that a task-specific pool is given for free. In this paper, we
advocate that such a task-specific pool is not always available and propose the
use of a myriad of unlabelled data on the Web for the pool for which active
learning is applied. As the pool is extremely large, it is likely that relevant
data exist in the pool for many tasks, and we do not need to explicitly design
and build the pool for each task. The challenge is that we cannot compute the
acquisition scores of all data exhaustively due to the size of the pool. We
propose an efficient method, Seafaring, to retrieve informative data in terms
of active learning from the Web using a user-side information retrieval
algorithm. In the experiments, we use the online Flickr environment as the pool
for active learning. This pool contains more than ten billion images and is
several orders of magnitude larger than the existing pools in the literature
for active learning. We confirm that our method performs better than existing
approaches of using a small unlabelled pool.
- Abstract(参考訳): データのラベル付けは、機械学習パイプラインで最もコストのかかるプロセスの1つである。
アクティブラーニングはこの問題を緩和するための標準的なアプローチである。
プールベースのアクティブラーニングはまず、ラベル付きデータのプールを構築し、必要なラベルの総数を最小限に抑えるためにラベル付けするデータを反復的に選択する。
プールからデータを選択するための多くの効果的な基準が文献に提案されている。
しかし、プールの作り方はあまり研究されていない。
特に、ほとんどのメソッドはタスク固有のプールが無料で与えられると仮定している。
本稿では,このようなタスク固有のプールが常に利用可能であるとは限らないことを主張し,アクティブラーニングを適用したプールに対して,無数のラベルなしデータをweb上で使用することを提案する。
プールは非常に大きいため、多くのタスクに対して関連するデータがプールに存在する可能性が高いため、各タスクに対してプールを明示的に設計し、構築する必要はありません。
課題は、プールのサイズによって、全データの取得スコアを徹底的に計算できないことです。
本研究では,ユーザ側情報検索アルゴリズムを用いて,Webからの能動的学習の観点から情報検索を行う効率的なシーファリング手法を提案する。
実験では,オンラインFlickr環境をアクティブ学習のプールとして利用した。
このプールには100億以上の画像が含まれており、アクティブラーニングのための文献の既存のプールよりも数桁大きい。
提案手法は, 従来の未ラベルプールの手法よりも性能がよいことを確認した。
関連論文リスト
- AnchorAL: Computationally Efficient Active Learning for Large and Imbalanced Datasets [8.293089483453775]
不均衡な分類タスクのアクティブラーニングは、マイノリティクラスが自然に稀に発生するため、困難である。
標準的なプールベースのアクティブラーニングは、大きなプールでは計算コストが高く、初期決定境界を過度に適合させることで、しばしば低い精度に達する。
異なる分類タスクに対する実験では、AnchorALは(i)高速で、実行時間を数時間から数分に短縮し、(ii)よりパフォーマンスの高いモデルをトレーニングし、(iii)競合するメソッドよりもバランスの取れたデータセットを返す。
論文 参考訳(メタデータ) (2024-04-08T15:53:46Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Achieving Minimax Rates in Pool-Based Batch Active Learning [26.12124106759262]
本稿では,学習者がラベル付けオラクルへのポイントのバッチを適応的に発行する,バッチアクティブな学習シナリオについて考察する。
本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。
論文 参考訳(メタデータ) (2022-02-11T04:55:45Z) - AdaPool: Exponential Adaptive Pooling for Information-Retaining
Downsampling [82.08631594071656]
畳み込み層は畳み込みニューラルネットワーク(CNN)の重要な構成要素である
適応的で指数関数的に重み付けされたアダプール法を提案する。
adaPoolは画像やビデオの分類やオブジェクト検出など,さまざまなタスクを通じて,ディテールの保存性の向上を実証する。
論文 参考訳(メタデータ) (2021-11-01T08:50:37Z) - Low Budget Active Learning via Wasserstein Distance: An Integer
Programming Approach [81.19737119343438]
アクティブラーニング(Active Learning)とは、ラベル付きデータプールのコアサブセットをラベルに選択することで、ラベル付きデータでモデルをトレーニングするプロセスである。
本稿では,未ラベルプールからワッサーシュタイン距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。
我々の戦略は、ラベルのないプールで教師なし学習によって得られる高品質な潜伏的特徴を必要とする。
論文 参考訳(メタデータ) (2021-06-05T21:25:03Z) - Refining activation downsampling with SoftPool [74.1840492087968]
畳み込みニューラルネットワーク(cnns)は、アクティベーションマップのサイズを減らすためにプールを使用する。
指数重化アクティベーションダウンサンプリングの高速かつ効率的な方法であるSoftPoolを提案します。
SoftPoolは、アクティベーションマップの縮小でより多くの情報を保持できることを示します。
論文 参考訳(メタデータ) (2021-01-02T12:09:49Z) - On Initial Pools for Deep Active Learning [18.615560631982355]
アクティブラーニング(AL)技術は、与えられたタスクのためにモデルをトレーニングするために必要なトレーニングデータを最小限にすることを目的としている。
プールベースのALテクニックは、最初は小さな初期ラベル付きプールから始まり、次にラベル付けのための最も有益なサンプルのバッチを反復的に選択する。
知的にサンプル化された初期ラベル付きプールが深いAL性能を向上できるかどうかを検討する。
論文 参考訳(メタデータ) (2020-11-30T11:22:31Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z) - Strip Pooling: Rethinking Spatial Pooling for Scene Parsing [161.7521770950933]
長いが狭いカーネル、すなわち1xNまたはNx1を考えるストリッププーリングを導入する。
提案するストリッププール性能と従来の空間プール技術との比較を行った。
両方の新しいプールベースのデザインは軽量であり、既存のシーン解析ネットワークにおいて効率的なプラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2020-03-30T10:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。