Fugu-MT 論文翻訳(概要): Direct Acquisition Optimization for Low-Budget Active Learning

論文の概要: Direct Acquisition Optimization for Low-Budget Active Learning

arxiv url: http://arxiv.org/abs/2402.06045v1
Date: Thu, 8 Feb 2024 20:36:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 18:41:09.486731
Title: Direct Acquisition Optimization for Low-Budget Active Learning
Title（参考訳）: 低予算アクティブラーニングのための直接獲得最適化
Authors: Zhuokai Zhao, Yibo Jiang, Yuxin Chen
Abstract要約: アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。本稿では,従来のALアルゴリズムの低予算環境での性能劣化を実証的に観察する。そこで我々は,期待される真の損失削減に基づくサンプル選択を最適化する新しいALアルゴリズムであるDAO(Direct Acquisition Optimization)を導入する。
参考スコア（独自算出の注目度）: 15.355195433709717
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Active Learning (AL) has gained prominence in integrating data-intensive machine learning (ML) models into domains with limited labeled data. However, its effectiveness diminishes significantly when the labeling budget is low. In this paper, we first empirically observe the performance degradation of existing AL algorithms in the low-budget settings, and then introduce Direct Acquisition Optimization (DAO), a novel AL algorithm that optimizes sample selections based on expected true loss reduction. Specifically, DAO utilizes influence functions to update model parameters and incorporates an additional acquisition strategy to mitigate bias in loss estimation. This approach facilitates a more accurate estimation of the overall error reduction, without extensive computations or reliance on labeled data. Experiments demonstrate DAO's effectiveness in low budget settings, outperforming state-of-the-arts approaches across seven benchmarks.
Abstract（参考訳）: アクティブラーニング(AL)は、限られたラベル付きデータを持つドメインにデータ集約型機械学習(ML)モデルを統合することで有名になった。しかし,ラベリング予算が低ければ,その効果は著しく低下する。本稿では,まず,低予算環境における既存のalアルゴリズムの性能低下を実証的に観察し,次に,期待される真の損失削減に基づいてサンプル選択を最適化する新しいalアルゴリズムであるdirect acquisition optimization(dao)を導入する。具体的には、影響関数を用いてモデルパラメータを更新し、損失推定のバイアスを軽減するための追加の獲得戦略を組み込む。このアプローチは、広範な計算やラベル付きデータに依存することなく、全体的なエラー低減をより正確に評価する。実験は7つのベンチマークで最先端のアプローチを上回り、低予算設定でdaoの有効性を実証する。

関連論文リスト

Optimizing Active Learning in Vision-Language Models via Parameter-Efficient Uncertainty Calibration [6.7181844004432385]
本稿では,アクティブラーニングフレームワークに不確実な校正損失を組み込んだパラメータ効率学習手法を提案する。提案手法は,複雑な特徴量に基づくサンプリング手法の性能に適合し,超越できることを実証する。
論文参考訳（メタデータ） (2025-07-29T06:08:28Z)
To Label or Not to Label: PALM -- A Predictive Model for Evaluating Sample Efficiency in Active Learning Models [2.2667044928324747]
アクティブラーニング(AL)は、ラベル付けのための最も有益なサンプルを選択することで、アノテーションのコストを削減しようとしている。最終精度のみに焦点をあてた従来の評価手法は、学習過程の完全なダイナミクスを捉えることができない。本研究では,4つのキーパラメータからAL軌道を特徴付ける統一的・解釈可能な数学的モデルであるPALMを提案する。
論文参考訳（メタデータ） (2025-07-21T08:37:44Z)
Enhancing Treatment Effect Estimation via Active Learning: A Counterfactual Covering Perspective [61.284843894545475]
治療効果推定のための複雑なアルゴリズムは、不十分なラベル付きトレーニングセットを扱う際には効果がない。我々は,最適化目標をtextitFactual と textitCounterfactual Coverage Maximization に変換して,データ取得時の有効半径削減を実現するFCCMを提案する。 FCCMを他のベースラインに対してベンチマークすることは、完全に合成されたデータセットと半合成されたデータセットの両方にその優位性を示す。
論文参考訳（メタデータ） (2025-05-08T13:42:00Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Re-evaluating Group Robustness via Adaptive Class-Specific Scaling [47.41034887474166]
群分散ロバスト最適化は、スプリアス相関とアドレスデータセットバイアスを軽減するために使われる顕著なアルゴリズムである。既存のアプローチでは、堅牢なアキュラシーの改善が報告されているが、固有のトレードオフのため、平均的な精度が犠牲になっている。本稿では,既存のデバイアスアルゴリズムに直接適用可能なクラス固有のスケーリング戦略を提案する。我々は、このトレードオフを軽減するために、インスタンスワイド適応スケーリング技術を開発し、堅牢性と平均的アキュラシーの両方の改善に繋がる。
論文参考訳（メタデータ） (2024-12-19T16:01:51Z)
Learning Loss Landscapes in Preference Optimization [39.15940594751445]
本稿では,選好データセットの特定の特性,例えば混合品質データやノイズデータなどの特性が,選好最適化(PO)アルゴリズムの性能にどのように影響するかを実証研究する。 MuJoCo環境で実施した我々の実験は、最先端のPOメソッドがパフォーマンスの大幅な低下を経験するいくつかのシナリオを明らかにした。この枠組みでは,問題のあるシナリオを扱える新たな損失関数を発見するために,進化的戦略を採用する。
論文参考訳（メタデータ） (2024-11-10T19:11:48Z)
Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。 $SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-22T16:04:03Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
$i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。 i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文参考訳（メタデータ） (2024-05-24T05:42:11Z)
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。 LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文参考訳（メタデータ） (2024-04-08T21:05:42Z)
Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。 EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-04-17T10:59:57Z)
Stochastic Methods for AUC Optimization subject to AUC-based Fairness Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-12-23T22:29:08Z)
Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。 w.r.t.は局所的に厳密な下界の目的である。反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文参考訳（メタデータ） (2022-03-23T19:06:16Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。