Fugu-MT 論文翻訳(概要): Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

論文の概要: Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback

arxiv url: http://arxiv.org/abs/2603.02232v1
Date: Fri, 13 Feb 2026 05:08:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 01:20:08.098418
Title: Beyond Binary Preferences: A Principled Framework for Reward Modeling with Ordinal Feedback
Title（参考訳）: バイナリの優先度を超えて - 正規のフィードバックによるリワードモデリングのための原則的フレームワーク
Authors: Amirhossein Afsharrad, Ruida Zhou, Luca Viano, Sanjay Lall, Mohammad Ghavamzadeh,
Abstract要約: リワードモデリングは、大きな言語モデルと人間の嗜好の整合に不可欠である。現在のアプローチでは、順序的嗜好データを活用するための基本的な数学的枠組みが欠如している。本稿では, 離散順序回帰問題として, Likert スケールの選好を用いた報酬モデリングを定式化する理論的な枠組みを提案する。
参考スコア（独自算出の注目度）: 26.682783974167446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward modeling is crucial for aligning large language models with human preferences, yet current approaches lack a principled mathematical framework for leveraging ordinal preference data. When human annotators provide graded preferences on a Likert scale (e.g., significantly better, better, slightly better, negligibly better), existing methods typically apply ad-hoc heuristics, such as margin terms or scaling factors, to loss functions derived from binary preference models like Bradley-Terry. These approaches lack an underlying mathematical model for how ordinal preference data is generated. We present a theoretically grounded framework that formulates reward modeling with Likert scale preferences as a discrete ordinal regression problem. We derive two loss functions from this formulation: a negative log-likelihood loss and an all-threshold loss, both of which learn threshold parameters that naturally capture the ordinal structure of preferences. Unlike existing heuristic methods that manually specify fixed margins or scaling weights, our approach learns these parameters directly from data within a coherent probabilistic framework. Experimental results on multiple benchmarks demonstrate that our ordinal regression approach consistently achieves competitive or superior performance compared to existing heuristic methods across diverse evaluation categories including chat, reasoning, and safety tasks. Our work provides the first principled mathematical framework for incorporating Likert scale preferences into reward model training, moving beyond ad-hoc modifications of binary preference models to enable more effective utilization of fine-grained human feedback.
Abstract（参考訳）: リワードモデリングは、大きな言語モデルと人間の嗜好を整合させるのに不可欠であるが、現在のアプローチでは、順序付けの選好データを活用するための基本的な数学的枠組みが欠如している。人間のアノテータがLikertスケールで格付けされた選好(例えば、はるかに良く、より良く、より良く、より良く、より良く、無視できるほど良い)を提供するとき、既存の手法は通常、Bradley-Terryのような二項選好モデルから派生した損失関数にマージン項やスケーリング因子のようなアドホックなヒューリスティックスを適用する。これらのアプローチには、順序的嗜好データの生成方法に関する基礎的な数学的モデルがない。本稿では, 離散順序回帰問題として, Likert スケールの選好を用いた報酬モデリングを定式化する理論的な枠組みを提案する。この定式化から2つの損失関数を導出する: 負の対数類似損失と全閾値損失であり、どちらも、嗜好の順序構造を自然に捉えるしきい値パラメータを学習する。固定マージンやスケーリングウェイトを手動で指定する既存のヒューリスティック手法とは異なり、本手法では、コヒーレント確率的フレームワーク内のデータから直接これらのパラメータを学習する。複数のベンチマークによる実験結果から, チャット, 推論, 安全タスクなど, 多様な評価カテゴリにおける既存のヒューリスティック手法と比較して, 従来型回帰手法は競争力や優れた性能を一貫して達成していることがわかった。我々の研究は、厳密な人間のフィードバックをより効果的に活用するために、二分選好モデルのアドホックな修正を超越した報酬モデルトレーニングに、Likertスケール選好を組み込むための最初の原理的な数学的枠組みを提供する。

関連論文リスト

Learning Correlated Reward Models: Statistical Barriers and Opportunities [39.27536879408937]
本稿では,IIA仮定を避けたRUM学習における統計的・計算的課題について検討する。ほぼ最適性能を持つ統計的・計算効率の高い推定器を考案する。結果は、学習関連ユーティリティにおける高次嗜好データの利点を強調し、よりきめ細かい人間の嗜好のモデリングを可能にする。
論文参考訳（メタデータ） (2025-10-17T17:31:17Z)
Causal LLM Routing: End-to-End Regret Minimization from Observational Data [3.3580884064577616]
LLMルーティングは、クエリ毎に最も適切なモデルを選択することを目的としている。従来のアプローチでは、メトリクスを最初に予測し、モデルがこれらの見積に基づいて選択される、分離された戦略が一般的だった。観測データから意思決定の後悔を最小化してルーティングポリシーを学習する因果的エンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-21T21:34:18Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。 2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文参考訳（メタデータ） (2024-09-04T14:36:20Z)
Leveraging Uncertainty Estimates To Improve Classifier Performance [4.4951754159063295]
バイナリ分類では、正のクラスのモデルスコアが、アプリケーション要求に基づいて選択されたしきい値を超えるかどうかに基づいて、インスタンスのラベルを予測する。しかし、モデルスコアは真の肯定率と一致しないことが多い。これは特に、クラス間の差分サンプリングを含むトレーニングや、トレインとテスト設定間の分散ドリフトがある場合に当てはまる。
論文参考訳（メタデータ） (2023-11-20T12:40:25Z)
Continuously Generalized Ordinal Regression for Linear and Deep Models [41.03778663275373]
正規回帰は、クラスが順序を持ち、予測エラーが予測されたクラスが真のクラスからさらに大きくなるような分類タスクである。本稿では,クラス固有の超平面斜面をモデル化するための新しい手法を提案する。本手法は,順序回帰ベンチマークデータセットの完全セットに対して,標準順序ロジスティックモデルよりも大幅に優れる。
論文参考訳（メタデータ） (2022-02-14T19:49:05Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Characterizing Fairness Over the Set of Good Models Under Selective Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文参考訳（メタデータ） (2021-01-02T02:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。