論文の概要: Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation
- arxiv url: http://arxiv.org/abs/2508.02618v1
- Date: Mon, 04 Aug 2025 17:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.447204
- Title: Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation
- Title(参考訳): 相互作用蒸留による参照型リワードモデリングにおける注意ハックの軽減
- Authors: Jianxiang Zang, Meiling Ning, Shihan Dou, Jiazheng Zhang, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
- 参考スコア(独自算出の注目度): 40.79564929465515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reward model (RM), as the core component of reinforcement learning from human feedback (RLHF) for large language models (LLMs), responsible for providing reward signals to generated responses. However, mainstream preference modeling in RM is inadequate in terms of token-level interaction, making its judgment signals vulnerable to being hacked by misallocated attention to context. This stems from two fundamental limitations: (1) Current preference modeling employs decoder-only architectures, where the unidirectional causal attention mechanism leads to forward-decaying intra-sequence attention within the prompt-response sequence. (2) The independent Siamese-encoding paradigm induces the absence of token-level inter-sequence attention between chosen and rejected sequences. To address this "attention hacking", we propose "Interaction Distillation", a novel training framework for more adequate preference modeling through attention-level optimization. The method introduces an interaction-based natural language understanding model as the teacher to provide sophisticated token interaction patterns via comprehensive attention, and guides the preference modeling to simulate teacher model's interaction pattern through an attentional alignment objective. Through extensive experiments, interaction distillation has demonstrated its ability to provide more stable and generalizable reward signals compared to state-of-the-art RM optimization methods that target data noise, highlighting the attention hacking constitute a more fundamental limitation in RM.
- Abstract(参考訳): 報奨モデル(RM)は、大きな言語モデル(LLM)に対する人間からのフィードバック(RLHF)からの強化学習のコアコンポーネントであり、生成された応答に報奨信号を提供する。
しかし、RMにおける主流の嗜好モデリングはトークンレベルの相互作用では不十分であり、その判断信号がコンテキストへの不適切な注意によってハックされるのに対して脆弱である。
1) 現在の嗜好モデリングはデコーダのみのアーキテクチャを採用しており、一方向因果的注意機構は、即時応答シーケンス内でシーケンス内注意を前方に減らす。
2) 独立なシームズ符号化パラダイムは選択されたシーケンスと拒否されたシーケンスの間にトークンレベルのインターシーケンスの注意が欠如していることを誘発する。
この「アテンションハッキング」に対処するため、注意レベル最適化によるより適切な選好モデリングのための新しいトレーニングフレームワーク「Interaction Distillation」を提案する。
本手法では,教師の注意を介し高度なトークンインタラクションパターンを提供するために,対話に基づく自然言語理解モデルを導入し,教師モデルのインタラクションパターンをシミュレートするために,注意的アライメントの目的を通じて選好モデルを導出する。
広範な実験を通じて、相互作用蒸留は、データノイズを標的とする最先端のRM最適化手法と比較して、より安定で一般化可能な報酬信号を提供する能力を示し、注意ハッキングがRMのより基本的な制限となっていることを強調した。
関連論文リスト
- CTR-Sink: Attention Sink for Language Models in Click-Through Rate Prediction [42.92011330807996]
$textitCTR-Sink$は、レコメンデーションシナリオに適した振る舞いレベルの注意シンクを導入した、新しいフレームワークである。
注意シンク理論にヒントを得て、注意集中シンクを構築し、外部情報を介して注意集約を動的に制御する。
論文 参考訳(メタデータ) (2025-08-05T17:30:34Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Zero-Shot EEG-to-Gait Decoding via Phase-Aware Representation Learning [9.49131859415923]
ドメイン一般化型脳波-モーションデコーディングフレームワークであるNeuroDyGaitを提案する。
構造化されたコントラスト表現学習とリレーショナルドメインモデリングを使用して、脳波とモーション埋め込みのセマンティックアライメントを実現する。
ベンチマークデータセットのクロスオブジェクト歩行復号における適応や優れた性能を必要とせずに、見えない個人に対するゼロショットモーション予測を実現する。
論文 参考訳(メタデータ) (2025-06-24T06:03:49Z) - A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals [0.0]
本稿では,ループフィードバックにおいて人間に依存しない大規模言語モデルのための新しい強化学習フレームワークを提案する。
代わりに、我々のアプローチでは、モデル自体内のクロスアテンション信号を使用して、自己教師付き報酬を導き出す。
論文 参考訳(メタデータ) (2025-02-14T01:44:04Z) - HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition [17.412985505938508]
内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。
本稿では,アダプティブ・パーミューテーション(Adaptive Permutation, HAAP)を用いた階層的注意自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T06:41:43Z) - Collaborative Filtering Based on Diffusion Models: Unveiling the Potential of High-Order Connectivity [10.683635786183894]
CF-Diffは新しい拡散モデルに基づく協調フィルタリング手法である。
マルチホップの隣人と一緒に、協調的な信号を完全に活用することができる。
最高の競争相手に比べて7.29%も上昇している。
論文 参考訳(メタデータ) (2024-04-22T14:49:46Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。