論文の概要: Activation Reward Models for Few-Shot Model Alignment
- arxiv url: http://arxiv.org/abs/2507.01368v1
- Date: Wed, 02 Jul 2025 05:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.055285
- Title: Activation Reward Models for Few-Shot Model Alignment
- Title(参考訳): Few-Shotモデルアライメントのためのアクティベーションリワードモデル
- Authors: Tianning Chai, Chancharik Mitra, Brandon Huang, Gautam Rajendrakumar Gare, Zhiqiu Lin, Assaf Arbelle, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Deva Ramanan, Roei Herzig,
- Abstract要約: アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
- 参考スコア(独自算出の注目度): 77.37511364793515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) and Large Multimodal Models (LMMs) to human preferences is a central challenge in improving the quality of the models' generative outputs for real-world applications. A common approach is to use reward modeling to encode preferences, enabling alignment via post-training using reinforcement learning. However, traditional reward modeling is not easily adaptable to new preferences because it requires a separate reward model, commonly trained on large preference datasets. To address this, we introduce Activation Reward Models (Activation RMs) -- a novel few-shot reward modeling method that leverages activation steering to construct well-aligned reward signals using minimal supervision and no additional model finetuning. Activation RMs outperform existing few-shot reward modeling approaches such as LLM-as-a-judge with in-context learning, voting-based scoring, and token probability scoring on standard reward modeling benchmarks. Furthermore, we demonstrate the effectiveness of Activation RMs in mitigating reward hacking behaviors, highlighting their utility for safety-critical applications. Toward this end, we propose PreferenceHack, a novel few-shot setting benchmark, the first to test reward models on reward hacking in a paired preference format. Finally, we show that Activation RM achieves state-of-the-art performance on this benchmark, surpassing even GPT-4o.
- Abstract(参考訳): LLM(Large Language Models)とLMM(Large Multimodal Models)を人間の好みに合わせることは、実世界のアプリケーションにおいてモデルの生成出力の品質を向上させる上で重要な課題である。
一般的なアプローチは、報酬モデリングを使って好みをエンコードし、強化学習を用いてトレーニング後のアライメントを可能にすることである。
しかし、従来の報酬モデリングは、大きな嗜好データセットに基づいて訓練された個別の報酬モデルを必要とするため、新しい嗜好に容易に適応できない。
そこで本研究では,アクティベーション・リワード・モデル (Activation Reward Models, RM) を提案する。
アクティベーションRMは、LLM-as-a-judgeのような既存の数ショット報酬モデリング手法よりも、文脈内学習、投票ベースのスコアリング、標準報酬モデリングベンチマークでのトークン確率スコアリングに優れています。
さらに、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの有用性を強調した。
この目的のために、PreferenceHackを提案する。PreferenceHackは、ペア化された選好フォーマットで報酬のハッキングに関する報酬モデルをテストするための、新しい数ショット設定ベンチマークである。
最後に, Activation RM が GPT-4o を超越して, 最先端の性能を実現することを示す。
関連論文リスト
- GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - HAF-RM: A Hybrid Alignment Framework for Reward Model Training [51.59246299566669]
報酬モデルトレーニングのためのハイブリッドアライメントフレームワークHaF-RMを提案する。
報酬モデルのパフォーマンスとアライメントを高めるための、原則的で効果的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-04T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。