論文の概要: When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF
- arxiv url: http://arxiv.org/abs/2512.00709v1
- Date: Sun, 30 Nov 2025 03:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.373308
- Title: When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF
- Title(参考訳): RLHFのインスタンス依存ロバストロス
- Authors: Yifan Xu, Xichen Ye, Yifan Chen, Qiaosheng Zhang,
- Abstract要約: 我々は、強化学習の観点から、好みの切り替えに適したFlipping-Aware Direct Preference Optimization (FA-DPO)アルゴリズムを提案する。
選好アノテーションに関連する特徴を活用することで、判断の不確実性やモデルの選好反転パターンを捉える。
本実験では,複数の状況下でのインスタンス依存の嗜好フリップモデルについて検討した。
- 参考スコア(独自算出の注目度): 14.663977441172115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quality of datasets plays an important role in large language model (LLM) alignment. In collecting human feedback, however, preference flipping is ubiquitous and causes corruption in data annotation; the issue necessitates the alignment algorithms with improved robustness against potential flipped pairs. To this end, this paper introduces a Flipping-Aware Direct Preference Optimization (FA-DPO) algorithm tailored to preference flipping from a reinforcement learning with human feedback (RLHF) perspective. We dissect the inherent human intention model and the preference flipping mechanism introduced by external factors as two distinct stages; in the latter, we introduce an instance-dependent flipping probability on the basis of the Bradley-Terry (BT) model. Further, by leveraging features relevant to preference annotation, we capture uncertainty in judgments and model preference flipping patterns. In practice, we design a simple yet efficient iterative optimization algorithm compatible with the original RLHF and DPO algorithms. In our experiments, we investigate the instance-dependent preference flipping model under multiple circumstances for evaluation of our proposed method, as well as other baseline methods.
- Abstract(参考訳): データセットの品質は、大規模言語モデル(LLM)のアライメントにおいて重要な役割を果たす。
しかし、人間のフィードバックを集める際には、好みのフリップはユビキタスであり、データアノテーションの破損を引き起こす。
そこで本稿では,人間フィードバックを用いた強化学習(RLHF)から好みのフリップに適応したFlipping-Aware Direct Preference Optimization (FA-DPO)アルゴリズムを提案する。
我々は、外的要因によって導入された人間固有の意図モデルと嗜好反転機構を2つの異なる段階として識別し、後者ではBradley-Terry(BT)モデルに基づいて、インスタンス依存の反転確率を導入する。
さらに、選好アノテーションに関連する特徴を活用することで、判断の不確実性やモデルの選好反転パターンを捉える。
実際には、元のRLHFアルゴリズムやDPOアルゴリズムと互換性のある、単純で効率的な反復最適化アルゴリズムを設計する。
本実験では,提案手法と他の基本手法の評価のために,複数の状況下でのインスタンス依存の選好フリップモデルについて検討した。
関連論文リスト
- Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [11.31665596884142]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。