論文の概要: Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.23371v1
- Date: Sat, 27 Sep 2025 15:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.189728
- Title: Alignment through Meta-Weighted Online Sampling: Bridging the Gap between Data Generation and Preference Optimization
- Title(参考訳): メタ重み付きオンラインサンプリングによるアライメント:データ生成と優先度最適化のギャップを埋める
- Authors: Junming Yang, Ning Xu, Biao Liu, Shiqi Qiao, Xin Geng,
- Abstract要約: 大きな言語モデルと人間の価値観と意図を整合させるためには、優先度最適化が不可欠である。
既存の手法では、静的または分離されたオンラインサンプリング戦略を用いて、このギャップを減らそうとしている。
モデル学習とデータ生成を動的に結合する新しいフレームワークMetaAPO(Meta-Weighted Adaptive Preference Optimization)を提案する。
- 参考スコア(独自算出の注目度): 32.84452172765487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference optimization is crucial for aligning large language models (LLMs) with human values and intentions. A significant challenge in this process is the distribution mismatch between pre-collected offline preference data and the evolving model policy. Existing methods attempt to reduce this gap using static heuristics or decoupled online sampling strategies, but they often fail to adapt to the model's dynamic learning state. To bridge this gap, we propose Meta-Weighted Adaptive Preference Optimization (MetaAPO), a novel framework that dynamically couples data generation with model training. MetaAPO employs a lightweight meta-learner, as an "alignment gap estimator", to evaluate the potential benefits of on-policy sampling in relation to offline data. This guides targeted online generation and assigns sample-wise meta-weights to the optimization objective, dynamically balancing the quality and distribution of online and offline data. Experiments on AlpacaEval 2, Arena-Hard and MT-Bench demonstrate that MetaAPO consistently outperforms existing preference optimization approaches across various settings, while reducing 42% in online annotation costs.
- Abstract(参考訳): 優先順位最適化は、大きな言語モデル(LLM)と人間の価値観と意図の整合に不可欠である。
このプロセスにおける重要な課題は、事前コンパイルされたオフライン嗜好データと進化するモデルポリシーの間の分布ミスマッチである。
既存の手法では、静的ヒューリスティックスやオンラインサンプリング戦略の分離によってこのギャップを減らそうとしているが、しばしばモデルの動的学習状態に適応できない。
このギャップを埋めるため、モデルトレーニングとデータ生成を動的に結合する新しいフレームワークMetaAPO(Meta-Weighted Adaptive Preference Optimization)を提案する。
MetaAPOは、オフラインデータに関連するオンラインサンプリングの潜在的なメリットを評価するために、軽量なメタラーナーを"アライメントギャップ推定器"として採用している。
このガイドは、オンライン生成を対象とし、オンラインおよびオフラインデータの質と分布を動的にバランスし、最適化目標にサンプルワイズメタウェイトを割り当てる。
AlpacaEval 2の実験では、Arena-Hard氏とMT-Bench氏は、MetaAPOがオンラインアノテーションコストの42%を削減しつつ、さまざまな設定で既存の好み最適化アプローチを一貫して上回っていることを示した。
関連論文リスト
- Adaptive Sample Scheduling for Direct Preference Optimization [37.54165341391688]
DPOのためのサンプルスケジューリングという,新しい問題を紹介します。
モデルの進化状態に基づいてトレーニングサンプルを動的かつ適応的にスケジュールすることを目的としている。
トレーニングバッチ毎にサンプルを適応的に選択する,効率的かつ効率的なアルゴリズムであるSamSを提案する。
論文 参考訳(メタデータ) (2025-06-08T10:26:09Z) - Leveraging Robust Optimization for LLM Alignment under Distribution Shifts [52.983390470606146]
人間の値に整合した出力を生成するために、大規模言語モデルを操る上で、優先順位アライメント手法はますます重要になっている。
このようなシフトに拘わらず、好みのアライメントを改善する新しい分布対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-08T09:14:38Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。