論文の概要: Automatically Finding Reward Model Biases
- arxiv url: http://arxiv.org/abs/2602.15222v1
- Date: Mon, 16 Feb 2026 22:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.919513
- Title: Automatically Finding Reward Model Biases
- Title(参考訳): Reward Model Biase の自動検索
- Authors: Atticus Wang, Iván Arcuschin, Arthur Conmy,
- Abstract要約: 自然言語における報酬モデルバイアスを自動的に発見する研究問題を紹介し,研究する。
我々の手法は既知のバイアスや表面の新規なバイアスを回復することができる。
進化的反復がNの探索の最高性能より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.1048628765050985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reward models are central to large language model (LLM) post-training. However, past work has shown that they can reward spurious or undesirable attributes such as length, format, hallucinations, and sycophancy. In this work, we introduce and study the research problem of automatically finding reward model biases in natural language. We offer a simple approach of using an LLM to iteratively propose and refine candidate biases. Our method can recover known biases and surface novel ones: for example, we found that Skywork-V2-8B, a leading open-weight reward model, often mistakenly favors responses with redundant spacing and responses with hallucinated content. In addition, we show evidence that evolutionary iteration outperforms flat best-of-N search, and we validate the recall of our pipeline using synthetically injected biases. We hope our work contributes to further research on improving RMs through automated interpretability methods.
- Abstract(参考訳): リワードモデルは、訓練後の大きな言語モデル(LLM)の中心である。
しかし、過去の研究は、長さ、形式、幻覚、梅毒といった刺激的または望ましくない属性を報酬できることを示した。
本研究では,自然言語における報酬モデルバイアスを自動的に検出する研究問題を紹介し,研究する。
候補バイアスを反復的に提案・改善するために, LLM を用いる簡単なアプローチを提案する。
例えば、主要なオープンウェイト報酬モデルであるSkywork-V2-8Bは、冗長な間隔と幻覚コンテンツによる応答を誤って好んでいることが分かりました。
さらに, 進化的反復がNの探索の最高性能を上回ることを示すとともに, 合成バイアスを用いたパイプラインのリコールを検証した。
我々の研究が、自動解釈可能性手法によるRMの改善に関するさらなる研究に貢献できることを願っている。
関連論文リスト
- Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:25:54Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - Detecting Prefix Bias in LLM-based Reward Models [4.596249232904721]
選好データセットに基づいて訓練された報酬モデルにおいて,プレフィックスバイアスを検知し,評価するための新しい手法を提案する。
これらの指標を活用して、人種と性別の異なる嗜好モデルにおける大きなバイアスを明らかにします。
本研究は,公正かつ信頼性の高い報酬モデルを開発する上で,バイアス対応データセットの設計と評価を重要視するものである。
論文 参考訳(メタデータ) (2025-05-13T21:50:03Z) - Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [2.427844597259453]
強化学習(Reinforcement Learning, RL)は、しばしば報酬のミスアライメントに苦しむ。
HITL(Human-in-the-loop)メソッドはこの問題を緩和するが、バイアスも導入する。
これらの課題に対処するための2つの重要な貢献を提案する。
論文 参考訳(メタデータ) (2025-03-26T03:17:12Z) - Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。
本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。
本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文 参考訳(メタデータ) (2025-02-26T20:50:11Z) - From Lists to Emojis: How Format Bias Affects Model Alignment [67.08430328350327]
人的フィードバックからの強化学習における形式バイアスについて検討する。
人間の評価者を含む多くの広く使われている嗜好モデルは、特定のフォーマットパターンに対して強いバイアスを示す。
バイアスデータが少ないと、報酬モデルにかなりのバイアスを注入できることを示す。
論文 参考訳(メタデータ) (2024-09-18T05:13:18Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。