論文の概要: Intrinsic Mutual Information as a Modulator for Preference Optimization
- arxiv url: http://arxiv.org/abs/2604.24804v1
- Date: Mon, 27 Apr 2026 05:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.507238
- Title: Intrinsic Mutual Information as a Modulator for Preference Optimization
- Title(参考訳): 優先度最適化のためのモジュレータとしての固有の相互情報
- Authors: Peng Liao, Peijia Zheng, Lingbo Li, Shangsong Liang, Lin Chen,
- Abstract要約: オフライン優先最適化のための軽量かつ効率的なフレームワークであるRMiPOを提案する。
RMiPOは既存の手法よりも一貫して優れた性能を示しながら、トレーニングのオーバーヘッドを15%以上削減している。
- 参考スコア(独自算出の注目度): 21.430166597980804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline preference optimization methods, such as Direct Preference Optimization (DPO), offer significant advantages in aligning Large Language Models (LLMs) with human values. However, achieving optimal performance with these methods typically involves additional hyperparameter tuning, resulting in substantial time overhead. Although prior work has proposed a range of improvements, these methods remain limited in effectiveness and have not fully eliminated reliance on hyperparameter tuning. In this work, we propose RMiPO, a lightweight and efficient framework for offline preference optimization. RMiPO leverages intrinsic Response-level Mutual information for Preference Optimization with hyperparameter modulation, dynamically decoupling preference contributions at negligible additional computational cost. Extensive experimental results demonstrate that RMiPO achieves consistently superior performance over existing methods while reducing training overhead by more than 15\%. Our code is available at https://github.com/liavonpenn/rmipo.
- Abstract(参考訳): 直接選好最適化(DPO)のようなオフラインの選好最適化手法は、Large Language Models(LLM)と人間の値の整合において大きな利点をもたらす。
しかし、これらの手法で最適な性能を達成するには、通常、追加のハイパーパラメータチューニングが伴うため、かなりの時間的オーバーヘッドが生じる。
以前の研究では様々な改善が提案されていたが、これらの手法は依然として有効性に制限されており、ハイパーパラメータチューニングへの依存を完全には排除していない。
本研究では,オフライン優先最適化のための軽量かつ効率的なフレームワークであるRMiPOを提案する。
RMiPOは、過パラメータ変調による優先度最適化のための固有応答レベル相互情報を活用し、無視可能な追加計算コストで動的に好みのコントリビューションを分離する。
実験の結果,RMiPOは既存の手法よりも一貫して優れた性能を示し,トレーニングオーバーヘッドを15倍以上削減した。
私たちのコードはhttps://github.com/liavonpenn/rmipo.comから入手可能です。
関連論文リスト
- Adaptive Preference Optimization with Uncertainty-aware Utility Anchor [33.74005997646761]
オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。
提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。
本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-09-03T10:20:08Z) - MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge [35.703451475662995]
本稿では,好みから学習するフレームワークであるPosteriori Preference Optimization (MaPPO)を提案する。
MaPPOは、事前の報酬推定値を、原則的最大値MaP(Posteriori)目標に統合する。
MaPPOはDPOの亜種を一貫して改善したプラグインとして使用できる。
論文 参考訳(メタデータ) (2025-07-27T05:26:50Z) - ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。