Fugu-MT 論文翻訳(概要): Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling

論文の概要: Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling

arxiv url: http://arxiv.org/abs/2502.00814v1
Date: Sun, 02 Feb 2025 14:50:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.248274
Title: Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling
Title（参考訳）: 応答型モデリングによる選好学習における遠方長バイアス
Authors: Jianfeng Cai, Jinhua Zhu, Ruopei Sun, Yue Wang, Li Li, Wengang Zhou, Houqiang Li,
Abstract要約: 本稿では,応答条件付きBradley-Terryモデルを提案する。また、大規模言語モデルの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 87.17041933863041
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) has achieved considerable success in aligning large language models (LLMs) by modeling human preferences with a learnable reward model and employing a reinforcement learning algorithm to maximize the reward model's scores. However, these reward models are susceptible to exploitation through various superficial confounding factors, with length bias emerging as a particularly significant concern. Moreover, while the pronounced impact of length bias on preference modeling suggests that LLMs possess an inherent sensitivity to length perception, our preliminary investigations reveal that fine-tuned LLMs consistently struggle to adhere to explicit length instructions. To address these two limitations, we propose a novel framework wherein the reward model explicitly differentiates between human semantic preferences and response length requirements. Specifically, we introduce a Response-conditioned Bradley-Terry (Rc-BT) model that enhances the reward model's capability in length bias mitigating and length instruction following, through training on our augmented dataset. Furthermore, we propose the Rc-DPO algorithm to leverage the Rc-BT model for direct policy optimization (DPO) of LLMs, simultaneously mitigating length bias and promoting adherence to length instructions. Extensive evaluations demonstrate that our approach substantially improves both preference modeling and length instruction compliance, with its effectiveness validated across various foundational models and preference datasets.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF)は、人間の好みを学習可能な報酬モデルでモデル化し、報酬モデルのスコアを最大化するために強化学習アルゴリズムを採用することで、大きな言語モデル(LLM)の整合化に成功している。しかしながら、これらの報酬モデルは、様々な表面的背景因子による搾取に影響を受けやすく、特に重要な関心事として長さバイアスが出現する。さらに,長さバイアスが嗜好モデルに与える影響は,LLMが長さ知覚に固有の感度を持っていることを示唆するが,本予備研究では,細調整LLMが常に明示的な長さ指示に従うのに苦慮していることが明らかとなった。これら2つの制約に対処するために、報酬モデルが人間の意味的嗜好と応答長要求を明確に区別する新しい枠組みを提案する。具体的には,リアクション条件のBradley-Terry(Rc-BT)モデルを提案する。さらに,LLMの直接ポリシー最適化(DPO)にRc-BTモデルを利用するRc-DPOアルゴリズムを提案する。提案手法は,様々な基本モデルや嗜好データセットにまたがって,選好モデルと長さ指示コンプライアンスの両方を大幅に改善することを示す。

関連論文リスト

Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。 BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。 BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文参考訳（メタデータ） (2026-02-11T08:14:11Z)
OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning [41.49024599460379]
大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2025-10-28T17:02:46Z)
PersRM-R1: Enhance Personalized Reward Modeling with Reinforcement Learning [7.899605480166484]
PersRM-R1は、個人的要因を特定・表現するために設計された最初の推論に基づく報酬モデリングフレームワークである。提案手法は,合成データ生成と教師付き微調整と強化微調整を組み合わせた2段階の訓練パイプラインを組み合わせる。実験結果から,PersRM-R1は類似のモデルよりも優れており,精度と一般化性の両方において,はるかに大きなモデルの性能に匹敵することがわかった。
論文参考訳（メタデータ） (2025-08-12T14:25:58Z)
Crowd-SFT: Crowdsourcing for LLM Alignment [4.648677931378919]
大規模言語モデル(LLM)は、監視された微調整(SFT)と人間フィードバックからの強化学習(RLHF)にますます依存している。我々は,大規模なアノテータトレーニングを必要とせず,より広範なフィードバック収集を可能にする,クラウドソースのファインチューニングフレームワークを提案する。本フレームワークは,Shapley値と相関するポイントベース報酬システムを通じてインセンティブフェアネスを促進し,反復モデル更新によるモデル収束を導出する。
論文参考訳（メタデータ） (2025-06-04T15:26:38Z)
Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文参考訳（メタデータ） (2025-05-13T21:50:03Z)
IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:59:11Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文参考訳（メタデータ） (2024-10-08T03:12:57Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-31T05:37:01Z)
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文参考訳（メタデータ） (2024-07-01T17:01:54Z)
Prototypical Reward Network for Data-Efficient RLHF [17.220998116937444]
RLHF(Reinforcement Learning from Human Feedback)の報奨モデルが大規模言語モデル(LLM)の微調整に有効であることが証明された。提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
論文参考訳（メタデータ） (2024-06-06T15:23:30Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。 RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文参考訳（メタデータ） (2024-03-20T17:49:54Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback [55.78118035358662]
人間のフィードバックからの強化学習は、大きな言語モデルと人間と社会的価値を整合させる重要な橋として機能する。報酬モデルが意図した目的を回避できるショートカットを見つけることがよくあります。本稿では、報酬モデリングとシーケンス長の影響を分離するために、Product-of-Experts技術を適用した革新的なソリューションを提案する。
論文参考訳（メタデータ） (2023-10-08T15:14:39Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。