論文の概要: Preference learning in shades of gray: Interpretable and bias-aware reward modeling for human preferences
- arxiv url: http://arxiv.org/abs/2604.01312v1
- Date: Wed, 01 Apr 2026 18:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.764225
- Title: Preference learning in shades of gray: Interpretable and bias-aware reward modeling for human preferences
- Title(参考訳): グレーのシェードにおける嗜好学習--人間の嗜好に対する解釈と偏見を考慮した報奨モデル
- Authors: Simona-Vasilica Oprea, Adela Bâra,
- Abstract要約: 本研究では,言語モデルにおける人間の嗜好学習に対する現在のアプローチの限界について検討する。
本稿では,人的判断の多次元的性質をよりよく捉えるための機能拡張フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.680081568962999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning human preferences in language models remains fundamentally challenging, as reward modeling relies on subtle, subjective comparisons or shades of gray rather than clear-cut labels. This study investigates the limits of current approaches and proposes a feature-augmented framework to better capture the multidimensional nature of human judgment. Using the Anthropic HHRLHF dataset, we evaluate ten diverse large language models LLMs under a standard pairwise preference setting, where baseline performance remains below 0.74 ROC AUC, highlighting the difficulty of the task. To address this, we enrich textual representations with interpretable signals: response length, refusal indicators, toxicity scores and prompt response semantic similarity, enabling models to explicitly capture key aspects of helpfulness, safety and relevance. The proposed hybrid approach yields consistent improvements across all models, achieving up to 0.84 ROC AUC and significantly higher pairwise accuracy, with DeBERTav3Large demonstrating the best performance. Beyond accuracy, we integrate SHAP and LIME to provide fine-grained interpretability, revealing that model decisions depend on contextualized safety and supportive framing rather than isolated keywords. We further analyze bias amplification, showing that while individual features have weak marginal effects, their interactions influence preference learning.
- Abstract(参考訳): 報酬モデリングは明確なラベルではなく、微妙で主観的な比較やグレーの陰に頼っている。
本研究では,現在のアプローチの限界について検討し,人間の判断の多次元的性質をよりよく捉えるための特徴拡張フレームワークを提案する。
Anthropic HHRLHF データセットを用いて10種類の多種多様な言語モデル LLM を標準対選択設定で評価し,基本性能は 0.74 ROC AUC 以下であり,課題の難しさを浮き彫りにしている。
そこで本研究では, 応答長, 拒絶指標, 毒性スコア, 応答意味的類似性など, テキスト表現を解釈可能な信号で強化し, モデルが有用性, 安全性, 関連性といった重要な側面を明示的に把握できるようにする。
提案されたハイブリッドアプローチは、最大0.84ROC AUCを達成し、DeBERTav3Largeが最高の性能を示すことで、すべてのモデルに一貫した改善をもたらす。
正確性以外にも、SHAPとLIMEを統合して、きめ細かい解釈性を提供し、モデル決定は、孤立したキーワードではなく、コンテキスト化された安全性と支援的なフレーミングに依存することを明らかにした。
さらに、バイアス増幅を分析し、個々の特徴が限界効果の弱い一方で、それらの相互作用が嗜好学習に影響を与えることを示した。
関連論文リスト
- VRM: Teaching Reward Models to Understand Authentic Human Preferences [39.939650821889764]
変分回帰モデリングは、人間の嗜好判断の評価過程を明示的にモデル化する新しいフレームワークである。
以上の結果から,VRMは人間の嗜好を捉える上で,既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-03-05T09:12:39Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Latent Preference Coding: Aligning Large Language Models via Discrete Latent Codes [54.93980123979578]
我々は、暗黙の要因をモデル化する新しいフレームワークであるLatent Preference Coding (LPC)を紹介する。
LPCは様々なオフラインアライメントアルゴリズムとシームレスに統合し、基礎となる要因とデータからその重要性を自動的に推測する。
論文 参考訳(メタデータ) (2025-05-08T06:59:06Z) - Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Multi-objective Reinforcement learning from AI Feedback [0.0]
本稿では、AIフィードバック(RLAIF)からの強化学習を用いて訓練された言語モデルのアライメントと性能を改善するための新しいアプローチを提案する。
すべての人間の嗜好を表現するために、単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、梅毒といったより単純な原則に分解する。
我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。
論文 参考訳(メタデータ) (2024-06-11T14:24:00Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。