論文の概要: ImitAL: Learning Active Learning Strategies from Synthetic Data
- arxiv url: http://arxiv.org/abs/2108.07670v1
- Date: Tue, 17 Aug 2021 15:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:25:57.737468
- Title: ImitAL: Learning Active Learning Strategies from Synthetic Data
- Title(参考訳): Imital: 合成データからアクティブラーニング戦略を学ぶ
- Authors: Julius Gonsior, Maik Thiele, Wolfgang Lehner
- Abstract要約: アクティブラーニングはラベル付きデータを効率的に取得するためのよく知られた標準手法である。
我々は、ALを学習からランクへの問題としてエンコードする新しいクエリ戦略であるImitALを提案する。
このアプローチは他のほとんどの戦略、特に非常に大規模なデータセットよりも実行時パフォーマンスが高いことを示す。
- 参考スコア(独自算出の注目度): 14.758287202278918
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One of the biggest challenges that complicates applied supervised machine
learning is the need for huge amounts of labeled data. Active Learning (AL) is
a well-known standard method for efficiently obtaining labeled data by first
labeling the samples that contain the most information based on a query
strategy. Although many methods for query strategies have been proposed in the
past, no clear superior method that works well in general for all domains has
been found yet. Additionally, many strategies are computationally expensive
which further hinders the widespread use of AL for large-scale annotation
projects.
We, therefore, propose ImitAL, a novel query strategy, which encodes AL as a
learning-to-rank problem. For training the underlying neural network we chose
Imitation Learning. The required demonstrative expert experience for training
is generated from purely synthetic data.
To show the general and superior applicability of \ImitAL{}, we perform an
extensive evaluation comparing our strategy on 15 different datasets, from a
wide range of domains, with 10 different state-of-the-art query strategies. We
also show that our approach is more runtime performant than most other
strategies, especially on very large datasets.
- Abstract(参考訳): 教師付き機械学習を複雑にする最大の課題のひとつは、大量のラベル付きデータを必要とすることだ。
Active Learning(AL)は、クエリ戦略に基づいて最も多くの情報を含むサンプルをラベル付けすることで、ラベル付きデータを効率的に取得するためのよく知られた標準手法である。
クエリ戦略の手法は過去にも数多く提案されてきたが、すべてのドメインにおいて一般的にうまく機能する明確な手法は見つかっていない。
さらに、多くの戦略は計算コストが高く、大規模なアノテーションプロジェクトでalが広く使われることを妨げている。
そこで我々は,ALを学習からランクへの問題としてエンコードする新しいクエリ戦略ImitALを提案する。
基盤となるニューラルネットワークをトレーニングするために、Imitation Learningを選択しました。
トレーニングに必要な実証的専門家エクスペリエンスは、純粋に合成データから生成される。
汎用的かつ優れた手法である \imital{} の適用性を示すために,我々は10種類の問合せ戦略を持つ,広範囲なドメインから15の異なるデータセットにおける戦略の比較を行った。
また、我々のアプローチは他のほとんどの戦略、特に非常に大きなデータセットよりも実行時のパフォーマンスが高いことも示しています。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - ALE: A Simulation-Based Active Learning Evaluation Framework for the
Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。
この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。
NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:42:11Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - ImitAL: Learned Active Learning Strategy on Synthetic Data [30.595138995552748]
ImitALはドメインに依存しない新しいクエリ戦略であり、ALを学習からランクまでの問題としてエンコードする。
我々はImitALを、純粋に合成されたデータセット上で大規模にシミュレーションされたALで訓練する。
ImitALがうまくトレーニングされたことを示すため、13の異なるデータセット上での戦略の比較を広範囲に評価した。
論文 参考訳(メタデータ) (2022-08-24T16:17:53Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Understanding the World Through Action [91.3755431537592]
ラベルのないデータを利用するための汎用的で原則的で強力なフレームワークは、強化学習から導き出すことができると私は主張する。
このような手順が、下流の潜在的なタスクとどのように密接に一致しているかについて論じます。
論文 参考訳(メタデータ) (2021-10-24T22:33:52Z) - Learning active learning at the crossroads? evaluation and discussion [0.03807314298073299]
アクティブラーニングは、人間の専門家がラベルを付けるのに役立つサンプルを予測することで、アノテーションコストを削減することを目指しています。
常にすべてのアプリケーションで他のすべてを上回る最高のアクティブ学習戦略はありません。
本稿では,最近のメタ学習アルゴリズムとマージンサンプリングを用いて学習した戦略を20のデータセットで比較したベンチマーク結果を示す。
論文 参考訳(メタデータ) (2020-12-16T10:35:43Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。