論文の概要: Reverse Preference Optimization for Complex Instruction Following
- arxiv url: http://arxiv.org/abs/2505.22172v1
- Date: Wed, 28 May 2025 09:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.53926
- Title: Reverse Preference Optimization for Complex Instruction Following
- Title(参考訳): 複素インストラクション追従に対するリバース推論最適化
- Authors: Xiang Huang, Ting-En Lin, Feiteng Fang, Yuchuan Wu, Hangyu Li, Yuzhong Qu, Fei Huang, Yongbin Li,
- Abstract要約: 本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
- 参考スコア(独自算出の注目度): 61.39734201711077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction following (IF) is a critical capability for large language models (LLMs). However, handling complex instructions with multiple constraints remains challenging. Previous methods typically select preference pairs based on the number of constraints they satisfy, introducing noise where chosen examples may fail to follow some constraints and rejected examples may excel in certain respects over the chosen ones. To address the challenge of aligning with multiple preferences, we propose a simple yet effective method called Reverse Preference Optimization (RPO). It mitigates noise in preference pairs by dynamically reversing the constraints within the instruction to ensure the chosen response is perfect, alleviating the burden of extensive sampling and filtering to collect perfect responses. Besides, reversal also enlarges the gap between chosen and rejected responses, thereby clarifying the optimization direction and making it more robust to noise. We evaluate RPO on two multi-turn IF benchmarks, Sysbench and Multi-IF, demonstrating average improvements over the DPO baseline of 4.6 and 2.5 points (on Llama-3.1 8B), respectively. Moreover, RPO scales effectively across model sizes (8B to 70B parameters), with the 70B RPO model surpassing GPT-4o.
- Abstract(参考訳): Instruction following (IF)は、大規模言語モデル(LLM)にとって重要な機能である。
しかし、複雑な命令を複数の制約で処理することは依然として困難である。
従来の手法では、選択された例がいくつかの制約に従うことができず、拒否された例が選択された例よりも特定の点で優れているというノイズを導入する。
複数選好と整合する課題に対処するため,Reverse Preference Optimization (RPO) と呼ばれるシンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために命令内の制約を動的に反転させることで、好みのペアのノイズを軽減し、完全な応答を収集するための広範囲なサンプリングとフィルタリングの負担を軽減する。
さらに、リバーサルは、選択された応答と拒否された応答のギャップを拡大し、最適化の方向を明確にし、ノイズに対してより堅牢にする。
我々は,2つのマルチターンIFベンチマーク,SysbenchとMulti-IFでRPOを評価し,それぞれ4.6点と2.5点(Llama-3.1 8B)のDPOベースラインに対する平均的な改善を示す。
さらに、RPOはモデルサイズ(8Bから70Bパラメータ)を効果的にスケールし、70B RPOモデルはGPT-4oを超える。
関連論文リスト
- ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。