論文の概要: Beyond Semantic Manipulation: Token-Space Attacks on Reward Models
- arxiv url: http://arxiv.org/abs/2604.02686v1
- Date: Fri, 03 Apr 2026 03:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.302171
- Title: Beyond Semantic Manipulation: Token-Space Attacks on Reward Models
- Title(参考訳): セマンティック・マニピュレーションを超えて - 逆行モデルによるToken-Space攻撃
- Authors: Yuheng Zhang, Mingyue Huo, Minghao Zhu, Mengxue Zhang, Nan Jiang,
- Abstract要約: Token Mapping Perturbation Attack (TOMPA) はトークン空間で直接対向最適化を行うフレームワークである。
TOMPAは、複数の最先端の報酬モデルに非常に高い報酬をもたらす非言語的なトークンパターンを発見する。
TOMPA は GPT-5 の基準回答の報酬をほぼ2倍にし、98.0% のプロンプトでそれらを上回っている。
- 参考スコア(独自算出の注目度): 17.059797776907228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) are widely used as optimization targets in reinforcement learning from human feedback (RLHF), yet they remain vulnerable to reward hacking. Existing attacks mainly operate within the semantic space, constructing human-readable adversarial outputs that exploit RM biases. In this work, we introduce a fundamentally different paradigm: Token Mapping Perturbation Attack (TOMPA), a framework that performs adversarial optimization directly in token space. By bypassing the standard decode-re-tokenize interface between the policy and the reward model, TOMPA enables the attack policy to optimize over raw token sequences rather than coherent natural language. Using only black-box scalar feedback, TOMPA automatically discovers non-linguistic token patterns that elicit extremely high rewards across multiple state-of-the-art RMs. Specifically, when targeting Skywork-Reward-V2-Llama-3.1-8B, TOMPA nearly doubles the reward of GPT-5 reference answers and outperforms them on 98.0% of prompts. Despite these high scores, the generated outputs degenerate into nonsensical text, revealing that RMs can be systematically exploited beyond the semantic regime and exposing a critical vulnerability in current RLHF pipelines.
- Abstract(参考訳): リワードモデル(RM)は、人間からのフィードバック(RLHF)からの強化学習の最適化ターゲットとして広く使用されているが、ハッキングの報奨には弱いままである。
既存の攻撃は主に意味空間内で動作し、RMバイアスを利用する人間可読な敵の出力を構築する。
本研究では,トークン空間内で直接対向最適化を行うフレームワークであるTOPA(Token Mapping Perturbation Attack)を提案する。
ポリシーと報酬モデルの間の標準的な復号化インターフェースをバイパスすることにより、TOMPAは、一貫性のある自然言語ではなく、生トークンシーケンスを最適化する攻撃ポリシーを実現する。
TOMPAはブラックボックススカラーフィードバックのみを使用して、複数の最先端RMに非常に高い報酬をもたらす非言語的なトークンパターンを自動的に発見する。
具体的には、Skywork-Reward-V2-Llama-3.1-8Bをターゲットにすると、TOMPAはGPT-5参照応答の報酬をほぼ2倍にし、98.0%のプロンプトでそれらを上回る。
これらの高いスコアにもかかわらず、生成した出力は非意味的なテキストに縮退し、RMは意味論的体系を超えて体系的に利用でき、現在のRLHFパイプラインに重大な脆弱性を露呈することを明らかにした。
関連論文リスト
- Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS [37.07631000345777]
ポリシーモデルは、アコースティックアーティファクトを生成することでバニラ・リワード・モデル(RM)を利用することができるが、品質を劣化させるコストがかかる。
本稿では,ハイブリッド正規化方式を採用した新しいフレームワークであるRobust Reward Policy Optimization (RRPO)を提案する。
このスキームは、報酬信号が人間の知覚とより確実に一致した堅牢なRMを開発し、有害なショートカットを放棄し、代わりに真の感情の複雑な特徴を学ぶようにポリシーを説得する。
論文 参考訳(メタデータ) (2025-12-04T08:12:49Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning [64.04741347596938]
Token Hidden Reward (THR) はトークンレベルのメトリクスで、それぞれのトークンが正しい応答の確率に与える影響を定量化する。
トレーニングダイナミクスは、高い絶対THR値を持つトークンの小さなサブセットに支配されている。
この知見は、GRPOの学習信号を修正し、エクスプロイトや探索に向けて明示的にバイアストレーニングを行うTHR誘導再重み付けアルゴリズムを示唆している。
論文 参考訳(メタデータ) (2025-10-04T04:49:44Z) - TokenSwap: Backdoor Attack on the Compositional Understanding of Large Vision-Language Models [57.32952956674526]
大規模視覚言語モデル(LVLM)に対するより回避的でステルス的なバックドア攻撃であるTokenSwapを紹介する。
固定されたターゲットコンテンツを強制するのではなく、TokenSwapはテキスト内のオブジェクト関係の理解を微妙に妨害する。
TokenSwapは、優れた回避性とステルス性を維持しながら、高い攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-09-29T10:19:22Z) - Interpretable Reward Model via Sparse Autoencoder [16.903840987027912]
本稿では,Sparse Autoencoder-enhanced Reward Model(SARM)を紹介する。
SARMはLLMベースのRMの隠れた活性化を解釈可能でスパースで単意味的な特徴空間にマッピングする。
実験的な評価では、SARMは報酬割り当ての直接的特徴レベルの帰属を促進し、好みのシフトを動的に調整し、従来の報酬モデルよりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2025-08-12T08:41:00Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。