Fugu-MT 論文翻訳(概要): Three Models of RLHF Annotation: Extension, Evidence, and Authority

論文の概要: Three Models of RLHF Annotation: Extension, Evidence, and Authority

arxiv url: http://arxiv.org/abs/2604.25895v1
Date: Tue, 28 Apr 2026 17:39:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.97897
Title: Three Models of RLHF Annotation: Extension, Evidence, and Authority
Title（参考訳）: RLHFアノテーションの3つのモデル:拡張、エビデンス、権限
Authors: Steve Coyne,
Abstract要約: これらのモデルは、どのようにRLHFパイプラインがアノテーションを誘導し、検証し、集約すべきかに影響を及ぼすと私は論じます。中心的な推奨は、RLHFパイプラインデザイナはアノテーションを分離可能な次元に分解すべきである、ということです。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Preference-based alignment methods, most prominently Reinforcement Learning with Human Feedback (RLHF), use the judgments of human annotators to shape large language model behaviour. However, the normative role of these judgments is rarely made explicit. I distinguish three conceptual models of that role. The first is extension: annotators extend the system designers' own judgments about what outputs should be. The second is evidence: annotators provide independent evidence about some facts, whether moral, social or otherwise. The third is authority: annotators have some independent authority (as representatives of the broader population) to determine system outputs. I argue that these models have implications for how RLHF pipelines should solicit, validate and aggregate annotations. I survey landmark papers in the literature on RLHF and related methods to illustrate how they implicitly draw on these models, describe failure modes that come from unintentionally or intentionally conflating them, and offer normative criteria for choosing among them. My central recommendation is that RLHF pipeline designers should decompose annotation into separable dimensions and tailor each pipeline to the model most appropriate for that dimension, rather than seeking a single unified pipeline.
Abstract（参考訳）: RLHF(Reinforcement Learning with Human Feedback)は、人間のアノテータの判断を用いて、大きな言語モデル行動を形成する手法である。しかし、これらの判断の規範的役割が明確化されることは滅多にない。私はその役割の3つの概念モデルを区別する。 1つ目は拡張で、アノテータはシステムデザイナ自身のアウトプットに関する判断を拡張します。 2つ目はエビデンスであり、アノテーターは、道徳的、社会的、その他に、いくつかの事実について独立した証拠を提供する。 3つ目は権威であり、アノテータはシステム出力を決定するための独立した権威(より広い人口の代表として)を持っている。これらのモデルは、どのようにRLHFパイプラインがアノテーションを誘導し、検証し、集約すべきかに影響を及ぼすと私は論じます。 RLHFとその関連手法に関する文献のランドマーク論文を調査し、これらのモデルに暗黙的に描画する方法を説明し、意図的あるいは意図的に混ざり合った失敗モードを記述し、それらの中から選択するための規範的な基準を提供します。中心的な推奨は、RLHFパイプラインデザイナが、アノテーションを分離可能なディメンションに分解し、各パイプラインを単一の統一パイプラインではなく、そのディメンションに最も適したモデルに合わせるべきだ、ということです。

関連論文リスト

JudgeRLVR: Judge First, Generate Second for Efficient Reasoning [20.448286296459344]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおける推論の標準パラダイムとなっている。本稿では,識別能力が効率的な生成の前提条件であると主張している。本稿では,2段階の審査理論であるジャッジRLVRを提案する。
論文参考訳（メタデータ） (2026-01-13T11:47:42Z)
Mitigating Length Bias in RLHF through a Causal Lens [8.334918207379173]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く用いられている。本稿では,RLHF報酬モデルにおける長さバイアスの分析と緩和のための因果的枠組みを提案する。
論文参考訳（メタデータ） (2025-11-16T12:25:10Z)
Think Twice: Branch-and-Rethink Reasoning Reward Model [32.70732791642558]
本稿では,2ターンのRMであるブランチ・アンド・リコンプリート(BR-RM)について紹介する。我々は、厳密なフォーマットチェックによる単純なバイナリ結果報酬を用いて、構造化された2ターントレース上でGRPOスタイルの強化学習を訓練する。 All-at-oncescoringinto focus, second-lookreasoning を変換することにより、BR-RMreducesjudgmentdiffusionand は微妙で連続的な誤りに対する感受性を高める。
論文参考訳（メタデータ） (2025-10-27T17:58:07Z)
Interactive Reasoning: Visualizing and Controlling Chain-of-Thought Reasoning in Large Language Models [54.85405423240165]
トピックの階層構造としてチェーンオブ思考出力を可視化するインタラクション設計であるInteractive Reasoningを導入する。私たちは、不確実なトレードオフに直面したAIによる意思決定のプロトタイプであるHippoで、インタラクティブな推論を実装しています。
論文参考訳（メタデータ） (2025-06-30T10:00:43Z)
Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文参考訳（メタデータ） (2025-05-19T08:29:28Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Predicting vs. Acting: A Trade-off Between World Modeling & Agent Modeling [34.3520410136648]
RLHF準拠のLMは、ベンチマークと長文生成の両方で前例のない能力を示している。 RLHFモデルが人間との対話を目的としたエージェントモデルになるにつれ、彼らは世界モデリングを失うように思われる。我々は、コヒーレントな長文生成を行うために、暗黙の青写真を通してランダム性を制限したRLHFモデルを提案する。
論文参考訳（メタデータ） (2024-07-02T17:22:54Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
Did the Models Understand Documents? Benchmarking Models for Language Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文参考訳（メタデータ） (2023-06-20T08:52:05Z)
Why do you think that? Exploring Faithful Sentence-Level Rationales Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文参考訳（メタデータ） (2020-10-07T12:54:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。