論文の概要: Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks
- arxiv url: http://arxiv.org/abs/2505.12845v1
- Date: Mon, 19 May 2025 08:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.487805
- Title: Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks
- Title(参考訳): マルチレベルAware Preference Learning:複雑なマルチインストラクションタスクのためのRLHFの強化
- Authors: Ruopei Sun, Jianfeng Cai, Jinhua Zhu, Kangwen Zhao, Dongyun Xue, Wengang Zhou, Li Li, Houqiang Li,
- Abstract要約: RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 81.44256822500257
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: RLHF has emerged as a predominant approach for aligning artificial intelligence systems with human preferences, demonstrating exceptional and measurable efficacy in instruction following tasks; however, it exhibits insufficient compliance capabilities when confronted with complex multi-instruction tasks. Conventional approaches rely heavily on human annotation or more sophisticated large language models, thereby introducing substantial resource expenditure or potential bias concerns. Meanwhile, alternative synthetic methods that augment standard preference datasets often compromise the model's semantic quality. Our research identifies a critical oversight in existing techniques, which predominantly focus on comparing responses while neglecting valuable latent signals embedded within prompt inputs, and which only focus on preference disparities at the intra-sample level, while neglecting to account for the inter-sample level preference differentials that exist among preference data. To leverage these previously neglected indicators, we propose a novel Multi-level Aware Preference Learning (MAPL) framework, capable of enhancing multi-instruction capabilities. Specifically, for any given response in original preference data pairs, we construct varied prompts with a preference relation under different conditions, in order to learn intra-sample level preference disparities. Furthermore, for any given original preference pair, we synthesize multi-instruction preference pairs to capture preference discrepancies at the inter-sample level. Building on the two datasets constructed above, we consequently devise two sophisticated training objective functions. Subsequently, our framework integrates seamlessly into both Reward Modeling and Direct Preference Optimization paradigms. Through rigorous evaluation across multiple benchmarks, we empirically validate the efficacy of our framework.
- Abstract(参考訳): RLHFは、人工知能システムを人間の好みと整合させる主要なアプローチとして登場し、後続のタスクに例外的かつ測定可能な有効性を示すが、複雑なマルチインストラクションタスクに直面すると、コンプライアンス能力が不十分である。
従来のアプローチは、人間のアノテーションやより洗練された大言語モデルに大きく依存しているため、実質的なリソース支出や潜在的なバイアスの懸念がもたらされる。
一方、標準の嗜好データセットを増大させる代替の合成手法は、しばしばモデルのセマンティックな品質を損なう。
本研究は,入力に埋め込まれた有意義な潜伏信号を無視しながら応答を比べることに重点を置いている既存手法の重要点を同定し,選好データに存在するサンプル間の選好差を考慮せずに,サンプル内レベルでの選好差のみに着目した。
従来無視されていた指標を活用するために,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
具体的には、元の選好データ対における任意の応答に対して、サンプルレベルの選好格差を学習するために、異なる条件下で選好関係を持つ様々なプロンプトを構築する。
さらに、任意の元の選好ペアに対して、複数の指示選好ペアを合成し、サンプル間レベルでの選好不一致をキャプチャする。
上に構築した2つのデータセットに基づいて、2つの高度な学習目標関数を考案する。
その後、我々のフレームワークは、Reward ModelingとDirect Preference Optimizationのパラダイムの両方にシームレスに統合されます。
複数のベンチマークで厳密な評価を行うことで,フレームワークの有効性を実証的に検証する。
関連論文リスト
- Like Father, Like Son: Kinship-Aware Preference Mapping (KARMA) for Automatic Alignment in Large Language Models [2.970904425631548]
Kinship-Aware pReference MApping (KARMA)は、同等の能力を持つモデルから応答をペアリングする新しいフレームワークである。
類似の複雑さと品質の出力に対する選好比較を制約することにより、KARMAは選好データの情報性を高める。
経験的評価は、我々の親族認識アプローチがより一貫性があり、解釈可能なアライメントの結果をもたらすことを示している。
論文 参考訳(メタデータ) (2025-02-26T01:36:40Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。