論文の概要: ImitAL: Learned Active Learning Strategy on Synthetic Data
- arxiv url: http://arxiv.org/abs/2208.11636v1
- Date: Wed, 24 Aug 2022 16:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:18:20.812193
- Title: ImitAL: Learned Active Learning Strategy on Synthetic Data
- Title(参考訳): Imital: 合成データによるアクティブラーニング戦略を学ぶ
- Authors: Julius Gonsior, Maik Thiele, Wolfgang Lehner
- Abstract要約: ImitALはドメインに依存しない新しいクエリ戦略であり、ALを学習からランクまでの問題としてエンコードする。
我々はImitALを、純粋に合成されたデータセット上で大規模にシミュレーションされたALで訓練する。
ImitALがうまくトレーニングされたことを示すため、13の異なるデータセット上での戦略の比較を広範囲に評価した。
- 参考スコア(独自算出の注目度): 30.595138995552748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active Learning (AL) is a well-known standard method for efficiently
obtaining annotated data by first labeling the samples that contain the most
information based on a query strategy. In the past, a large variety of such
query strategies has been proposed, with each generation of new strategies
increasing the runtime and adding more complexity. However, to the best of our
our knowledge, none of these strategies excels consistently over a large number
of datasets from different application domains. Basically, most of the the
existing AL strategies are a combination of the two simple heuristics
informativeness and representativeness, and the big differences lie in the
combination of the often conflicting heuristics. Within this paper, we propose
ImitAL, a domain-independent novel query strategy, which encodes AL as a
learning-to-rank problem and learns an optimal combination between both
heuristics. We train ImitAL on large-scale simulated AL runs on purely
synthetic datasets. To show that ImitAL was successfully trained, we perform an
extensive evaluation comparing our strategy on 13 different datasets, from a
wide range of domains, with 7 other query strategies.
- Abstract(参考訳): active learning (al) は、クエリ戦略に基づいて最も多くの情報を含むサンプルをラベル付けすることで、アノテートされたデータを効率的に得るためのよく知られた標準手法である。
これまで、さまざまなクエリ戦略が提案されてきたが、各世代の新しい戦略によってランタイムが増加し、複雑さが増す。
しかしながら、私たちの知る限りでは、これらの戦略は、異なるアプリケーションドメインからの多数のデータセットを一貫して上回るものではありません。
基本的に、既存のAL戦略のほとんどは、2つの単純なヒューリスティックスの情報性と代表性の組み合わせであり、大きな違いは、しばしば矛盾するヒューリスティックスの組み合わせにある。
本稿では,alを学習・ランク問題としてエンコードし,両ヒューリスティック間の最適な組み合わせを学習する,ドメインに依存しない新しい問合せ戦略であるimtalを提案する。
我々は、純粋合成データセット上での大規模シミュレーションal実行でイミタルをトレーニングする。
ImitALがうまくトレーニングされたことを示すため、我々は13の異なるデータセットの戦略を、広範囲のドメインから、他の7つのクエリ戦略と比較した広範な評価を行った。
関連論文リスト
- AutoAL: Automated Active Learning with Differentiable Query Strategy Search [18.23964720426325]
本研究は, AutoAL という,最初の識別可能な能動学習戦略探索手法を提案する。
任意のタスクに対して、SearchNetとFitNetはラベル付きデータを使って反復的に最適化され、そのタスクで候補ALアルゴリズムのセットがどれだけうまく機能するかを学ぶ。
AutoALは、すべての候補ALアルゴリズムや他の選択ALアプローチと比較して、常に優れた精度を達成する。
論文 参考訳(メタデータ) (2024-10-17T17:59:09Z) - Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs [0.6700983301090584]
大規模言語モデル(LLM)は、より高度なユースケースに適用され、微調整のための高品質でタスク固有のデータセットを生成する。
高品質な人的データを使用することは、モデルのパフォーマンスをアンロックするための最も一般的なアプローチであるが、多くのシナリオでは違法に高価である。
合成データやハイブリッドデータの生成など、いくつかの代替手法も登場したが、これらの手法の有効性は未だ不明である。
論文 参考訳(メタデータ) (2024-09-29T20:14:50Z) - Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - ALE: A Simulation-Based Active Learning Evaluation Framework for the
Parameter-Driven Comparison of Query Strategies for NLP [3.024761040393842]
Active Learning (AL)は、後続のサンプルやランダムなサンプルではなく、次にアノテータに有望なデータポイントを提案する。
この方法は、モデルパフォーマンスを維持しながらアノテーションの労力を節約することを目的としている。
NLPにおけるAL戦略の比較評価のための再現可能な能動学習評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:42:11Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - ImitAL: Learning Active Learning Strategies from Synthetic Data [14.758287202278918]
アクティブラーニングはラベル付きデータを効率的に取得するためのよく知られた標準手法である。
我々は、ALを学習からランクへの問題としてエンコードする新しいクエリ戦略であるImitALを提案する。
このアプローチは他のほとんどの戦略、特に非常に大規模なデータセットよりも実行時パフォーマンスが高いことを示す。
論文 参考訳(メタデータ) (2021-08-17T15:03:31Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。