論文の概要: Direct Acquisition Optimization for Low-Budget Active Learning
- arxiv url: http://arxiv.org/abs/2402.06045v1
- Date: Thu, 8 Feb 2024 20:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:41:09.486731
- Title: Direct Acquisition Optimization for Low-Budget Active Learning
- Title(参考訳): 低予算アクティブラーニングのための直接獲得最適化
- Authors: Zhuokai Zhao, Yibo Jiang, Yuxin Chen
- Abstract要約: アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。
本稿では,従来のALアルゴリズムの低予算環境での性能劣化を実証的に観察する。
そこで我々は,期待される真の損失削減に基づくサンプル選択を最適化する新しいALアルゴリズムであるDAO(Direct Acquisition Optimization)を導入する。
- 参考スコア(独自算出の注目度): 15.355195433709717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active Learning (AL) has gained prominence in integrating data-intensive
machine learning (ML) models into domains with limited labeled data. However,
its effectiveness diminishes significantly when the labeling budget is low. In
this paper, we first empirically observe the performance degradation of
existing AL algorithms in the low-budget settings, and then introduce Direct
Acquisition Optimization (DAO), a novel AL algorithm that optimizes sample
selections based on expected true loss reduction. Specifically, DAO utilizes
influence functions to update model parameters and incorporates an additional
acquisition strategy to mitigate bias in loss estimation. This approach
facilitates a more accurate estimation of the overall error reduction, without
extensive computations or reliance on labeled data. Experiments demonstrate
DAO's effectiveness in low budget settings, outperforming state-of-the-arts
approaches across seven benchmarks.
- Abstract(参考訳): アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。
しかし,ラベリング予算が低ければ,その効果は著しく低下する。
本稿では,まず,低予算環境における既存のalアルゴリズムの性能低下を実証的に観察し,次に,期待される真の損失削減に基づいてサンプル選択を最適化する新しいalアルゴリズムであるdirect acquisition optimization(dao)を導入する。
具体的には、影響関数を用いてモデルパラメータを更新し、損失推定のバイアスを軽減するための追加の獲得戦略を組み込む。
このアプローチは、広範な計算やラベル付きデータに依存することなく、全体的なエラー低減をより正確に評価する。
実験は7つのベンチマークで最先端のアプローチを上回り、低予算設定でdaoの有効性を実証する。
関連論文リスト
- Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - Re-evaluating Group Robustness via Adaptive Class-Specific Scaling [47.41034887474166]
群分散ロバスト最適化は、スプリアス相関とアドレスデータセットバイアスを軽減するために使われる顕著なアルゴリズムである。
既存のアプローチでは、堅牢なアキュラシーの改善が報告されているが、固有のトレードオフのため、平均的な精度が犠牲になっている。
本稿では,既存のデバイアスアルゴリズムに直接適用可能なクラス固有のスケーリング戦略を提案する。
我々は、このトレードオフを軽減するために、インスタンスワイド適応スケーリング技術を開発し、堅牢性と平均的アキュラシーの両方の改善に繋がる。
論文 参考訳(メタデータ) (2024-12-19T16:01:51Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。