論文の概要: Meta-Aligner: Bidirectional Preference-Policy Optimization for Multi-Objective LLMs Alignment
- arxiv url: http://arxiv.org/abs/2604.24178v1
- Date: Mon, 27 Apr 2026 08:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.859013
- Title: Meta-Aligner: Bidirectional Preference-Policy Optimization for Multi-Objective LLMs Alignment
- Title(参考訳): メタアライナー:多目的LLMアライメントの双方向参照-ポリティ最適化
- Authors: Wenzhe Xu, Biao Liu, Yiyang Sun, Xin Geng, Ning Xu,
- Abstract要約: 多目的アライメント(Multi-Objective Alignment)は、大規模言語モデルと、多様でしばしば相反する人間の価値との整合を目標とする。
本稿では,Meal,すなわちMeta ALignerを提案する。
- 参考スコア(独自算出の注目度): 35.36029664224222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-Objective Alignment aims to align Large Language Models (LLMs) with diverse and often conflicting human values by optimizing multiple objectives simultaneously. Existing methods predominantly rely on static preference weight construction strategies. However, rigidly aligning to fixed targets discards valuable intermediate information, as training responses inherently embody valid preference trade-offs even when deviating from the target. To address this limitation, we propose Meal, i.e., MEta ALigner, a bi-level meta-learning framework enabling bidirectional optimization between preferences and policy responses, generating instructive dynamic preferences for steadier training. Specifically, we introduce a preference-weight-net as a meta-learner to generate adaptive preference weights based on input prompts and update the preference weights as learnable parameters, while the LLM policy acts as a base-learner optimizing response generation conditioned on these preferences with rejection sampling strategy. Extensive empirical results demonstrate that our method achieves superior performance on several multi-objective benchmarks, validating the effectiveness of the dynamic bidirectional preference-policy optimization framework.
- Abstract(参考訳): 多目的アライメント(Multi-Objective Alignment)は、大規模言語モデル(LLM)を、複数の目的を同時に最適化することで、多様かつしばしば相反する人間の価値と整合させることを目的としている。
既存の手法は主に静的な嗜好重み構築戦略に依存している。
しかし、固定目標への厳密な整合は、目標から逸脱した場合でも、トレーニング応答が本質的に有効な優先トレードオフを具現化しているため、貴重な中間情報を捨てる。
この制限に対処するため,2段階のメタラーニングフレームワークであるMeta ALignerを提案する。
具体的には、メタラーナとして、入力プロンプトに基づいて適応的な選好重みを生成するための選好重みネットを導入し、学習可能なパラメータとして選好重みを更新する一方、LLMポリシーは、これらの選好に基づいて条件付けられた応答生成を拒絶サンプリング戦略で最適化するベースラーナーとして機能する。
大規模な実験結果から,本手法は複数の多目的ベンチマークにおいて優れた性能を示し,動的双方向優先-ポリチ最適化フレームワークの有効性を検証した。
関連論文リスト
- MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment [6.301256425456381]
幾何学に基づく多目的最適化アルゴリズムMGDA-Decoupledを導入する。
それぞれの目的の収束ダイナミクスを明示的に説明しながら、共通の降下方向を見つける。
UltraFeedbackデータセットの実験では、MGDA-Decoupledがゴールデンレスポンスに対して最高勝利率を達成した。
論文 参考訳(メタデータ) (2026-04-22T15:33:45Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - MetaAlign: Align Large Language Models with Diverse Preferences during Inference Time [50.41806216615488]
大規模言語モデル(LLM)は、広範なテキストコーパスから広範な知識と顕著な能力を取得する。
LLMをより使いやすくするためには、それらを人間の好みに合わせることが不可欠である。
提案手法は,LLMが推論時に指定される様々な明示的あるいは暗黙的な選好と動的に整合するのを支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T05:31:13Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。