論文の概要: Governance Challenges in Reinforcement Learning from Human Feedback: Evaluator Rationality and Reinforcement Stability
- arxiv url: http://arxiv.org/abs/2504.13972v1
- Date: Thu, 17 Apr 2025 19:10:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:13:31.854359
- Title: Governance Challenges in Reinforcement Learning from Human Feedback: Evaluator Rationality and Reinforcement Stability
- Title(参考訳): 人的フィードバックからの強化学習におけるガバナンスの課題--評価器の合理性と強化安定性
- Authors: Dana Alsagheer, Abdulrahman Kamal, Mohammad Kamal, Weidong Shi,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値と期待を一致させることの中心である。
本研究では,評価者の認知能力,特に合理性レベルが強化信号の安定性に与える影響について検討した。
- 参考スコア(独自算出の注目度): 2.3961612657966946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) is central in aligning large language models (LLMs) with human values and expectations. However, the process remains susceptible to governance challenges, including evaluator bias, inconsistency, and the unreliability of feedback. This study examines how the cognitive capacity of evaluators, specifically their level of rationality, affects the stability of reinforcement signals. A controlled experiment comparing high-rationality and low-rationality participants reveals that evaluators with higher rationality scores produce significantly more consistent and expert-aligned feedback. In contrast, lower-rationality participants demonstrate considerable variability in their reinforcement decisions ($p < 0.01$). To address these challenges and improve RLHF governance, we recommend implementing evaluator pre-screening, systematic auditing of feedback consistency, and reliability-weighted reinforcement aggregation. These measures enhance the fairness, transparency, and robustness of AI alignment pipelines.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデル(LLM)と人間の価値と期待の整合の中心である。
しかしながら、プロセスは、評価者のバイアス、矛盾、フィードバックの信頼性の欠如など、ガバナンス上の課題に引き続き影響を受けます。
本研究では,評価者の認知能力,特に合理性レベルが強化信号の安定性に与える影響について検討した。
高合理性と低合理性の参加者を比較した制御実験により、高い合理性スコアを持つ評価者が、より一貫性があり、専門家に整合したフィードバックを生み出すことが明らかになった。
対照的に、低合理性の参加者は、その強化決定(p < 0.01$)にかなりのばらつきを示す。
これらの課題に対処し、RLHFガバナンスを改善するために、評価器の事前スクリーニング、フィードバックの整合性の体系的な監査、信頼性に富んだ強化集約を実装することを推奨する。
これらの測定は、AIアライメントパイプラインの公平性、透明性、堅牢性を高める。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities [101.77467538102924]
近年のLRM(Large Reasoning Models)の進歩は、特殊推論タスクにおいて顕著な性能を示している。
議論的推論能力の獲得は, LRMの基礎的能力を大幅に低下させることを示す。
適応推論(Zero-Thinking, Less-Thinking, Summary-Thinking)がこれらの欠点を効果的に軽減できることを示します。
論文 参考訳(メタデータ) (2025-03-23T08:18:51Z) - DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。
DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。
DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文 参考訳(メタデータ) (2025-03-11T15:29:55Z) - A Survey on Explainable Deep Reinforcement Learning [18.869827229746697]
Deep Reinforcement Learning (DRL)は、さまざまな領域にわたるシーケンシャルな意思決定タスクにおいて、顕著な成功を収めた。
ブラックボックスのニューラルアーキテクチャに依存しているため、高信頼のアプリケーションにおける解釈可能性、信頼性、デプロイメントが妨げられる。
説明可能なDeep Reinforcement Learning(XRL)は、機能レベル、状態レベル、データセットレベル、モデルレベルの説明技術を通じて透明性を高めることで、これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-08T05:30:31Z) - RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation [3.998312409829935]
人間のフィードバックからの強化学習は、重度で体系的なミスアライメントを引き起こす可能性があることを示す。
本稿では,Reinforcement Learning from Hindsight Simulation (RLHS)を紹介する。
我々はTruthfulQAベンチマークのポストホック評価を行い、単一タスクの微調整をしても、RLHFのミスアライメントとRLHSのアライメントは、実質的に異なる設定を継続することを示した。
論文 参考訳(メタデータ) (2025-01-15T06:33:15Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Improving Domain Generalization in Self-supervised Monocular Depth Estimation via Stabilized Adversarial Training [61.35809887986553]
我々は、SCAT(stabilized Conflict-Optimization Adversarial Training)という、汎用的な敵訓練フレームワークを提案する。
SCATは、安定性と一般化のバランスを達成するために、敵データ拡張を自己教師付きMDE手法に統合する。
5つのベンチマーク実験により、SCATは最先端の性能を達成でき、既存の自己監督型MDE法の一般化能力を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2024-11-04T15:06:57Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning [11.084321518414226]
我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。
我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
論文 参考訳(メタデータ) (2023-07-21T20:54:52Z) - Parameter-Free Deterministic Reduction of the Estimation Bias in
Continuous Control [0.0]
パラメータフリーで新しいQ-ラーニングバリアントを導入し、この過小評価バイアスを連続制御に還元する。
我々は、MuJoCoとBox2Dの連続制御タスクのセットで改善性能をテストする。
論文 参考訳(メタデータ) (2021-09-24T07:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。