論文の概要: Direct Acquisition Optimization for Low-Budget Active Learning
- arxiv url: http://arxiv.org/abs/2402.06045v1
- Date: Thu, 8 Feb 2024 20:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:41:09.486731
- Title: Direct Acquisition Optimization for Low-Budget Active Learning
- Title(参考訳): 低予算アクティブラーニングのための直接獲得最適化
- Authors: Zhuokai Zhao, Yibo Jiang, Yuxin Chen
- Abstract要約: アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。
本稿では,従来のALアルゴリズムの低予算環境での性能劣化を実証的に観察する。
そこで我々は,期待される真の損失削減に基づくサンプル選択を最適化する新しいALアルゴリズムであるDAO(Direct Acquisition Optimization)を導入する。
- 参考スコア(独自算出の注目度): 15.355195433709717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active Learning (AL) has gained prominence in integrating data-intensive
machine learning (ML) models into domains with limited labeled data. However,
its effectiveness diminishes significantly when the labeling budget is low. In
this paper, we first empirically observe the performance degradation of
existing AL algorithms in the low-budget settings, and then introduce Direct
Acquisition Optimization (DAO), a novel AL algorithm that optimizes sample
selections based on expected true loss reduction. Specifically, DAO utilizes
influence functions to update model parameters and incorporates an additional
acquisition strategy to mitigate bias in loss estimation. This approach
facilitates a more accurate estimation of the overall error reduction, without
extensive computations or reliance on labeled data. Experiments demonstrate
DAO's effectiveness in low budget settings, outperforming state-of-the-arts
approaches across seven benchmarks.
- Abstract(参考訳): アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。
しかし,ラベリング予算が低ければ,その効果は著しく低下する。
本稿では,まず,低予算環境における既存のalアルゴリズムの性能低下を実証的に観察し,次に,期待される真の損失削減に基づいてサンプル選択を最適化する新しいalアルゴリズムであるdirect acquisition optimization(dao)を導入する。
具体的には、影響関数を用いてモデルパラメータを更新し、損失推定のバイアスを軽減するための追加の獲得戦略を組み込む。
このアプローチは、広範な計算やラベル付きデータに依存することなく、全体的なエラー低減をより正確に評価する。
実験は7つのベンチマークで最先端のアプローチを上回り、低予算設定でdaoの有効性を実証する。
関連論文リスト
- Learning Loss Landscapes in Preference Optimization [39.15940594751445]
本稿では,選好データセットの特定の特性,例えば混合品質データやノイズデータなどの特性が,選好最適化(PO)アルゴリズムの性能にどのように影響するかを実証研究する。
MuJoCo環境で実施した我々の実験は、最先端のPOメソッドがパフォーマンスの大幅な低下を経験するいくつかのシナリオを明らかにした。
この枠組みでは,問題のあるシナリオを扱える新たな損失関数を発見するために,進化的戦略を採用する。
論文 参考訳(メタデータ) (2024-11-10T19:11:48Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。