論文の概要: Amplification Effects in Test-Time Reinforcement Learning: Safety and Reasoning Vulnerabilities
- arxiv url: http://arxiv.org/abs/2603.15417v1
- Date: Mon, 16 Mar 2026 15:28:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.541389
- Title: Amplification Effects in Test-Time Reinforcement Learning: Safety and Reasoning Vulnerabilities
- Title(参考訳): テスト時間強化学習における増幅効果:安全性と推論脆弱性
- Authors: Vanshaj Khattar, Md Rafi ur Rashid, Moumita Choudhury, Jing Liu, Toshiaki Koike-Akino, Ming Jin, Ye Wang,
- Abstract要約: テストタイムトレーニング(TTT)は、大規模言語モデルの推論能力を改善するための有望な方法として登場した。
自己整合性を促進することによってLCM推論を向上させるTTT法は,増幅挙動や推論劣化を引き起こす可能性があることを示す。
- 参考スコア(独自算出の注目度): 23.619172971228853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time training (TTT) has recently emerged as a promising method to improve the reasoning abilities of large language models (LLMs), in which the model directly learns from test data without access to labels. However, this reliance on test data also makes TTT methods vulnerable to harmful prompt injections. In this paper, we investigate safety vulnerabilities of TTT methods, where we study a representative self-consistency-based test-time learning method: test-time reinforcement learning (TTRL), a recent TTT method that improves LLM reasoning by rewarding self-consistency using majority vote as a reward signal. We show that harmful prompt injection during TTRL amplifies the model's existing behaviors, i.e., safety amplification when the base model is relatively safe, and harmfulness amplification when it is vulnerable to the injected data. In both cases, there is a decline in reasoning ability, which we refer to as the reasoning tax. We also show that TTT methods such as TTRL can be exploited adversarially using specially designed "HarmInject" prompts to force the model to answer jailbreak and reasoning queries together, resulting in stronger harmfulness amplification. Overall, our results highlight that TTT methods that enhance LLM reasoning by promoting self-consistency can lead to amplification behaviors and reasoning degradation, highlighting the need for safer TTT methods.
- Abstract(参考訳): テストタイムトレーニング(TTT)は,大規模言語モデル(LLM)の推論能力を改善するための有望な手法として最近登場した。
しかし、このテストデータへの依存は、TTTメソッドを有害なプロンプトインジェクションに対して脆弱にする。
本稿では,テスト時間強化学習(TTRL, Test-time reinforcement learning, TTRL)と呼ばれる,テスト時間強化学習法について検討する。
本研究では,TTRL中の有害なプロンプト注入がモデル既存の動作,すなわちベースモデルが比較的安全である場合の安全性の増幅,およびインジェクションされたデータに対して脆弱な場合の有害性の増幅を増幅することを示す。
どちらの場合も推理能力は低下しており、これを推理税という。
また, TTRL などの TTT 手法は, 特別に設計された "HarmInject" プロンプトを用いて, モデルにジェイルブレイクの応答とクエリの推論を強制的に行わせることで, 強い有害度を増幅することを示した。
以上の結果から,自己整合性向上によるLCM推論を向上するTTT法は,より安全なTTT法の必要性を浮き彫りにして,増幅行動や推論劣化を引き起こす可能性が示唆された。
関連論文リスト
- Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards [8.109014000578766]
ASR-TRAは、因果介入に触発された新しいテストタイム強化適応フレームワークである。
提案手法は,既存のTTAベースラインよりも低レイテンシを維持しながら高い精度を実現する。
我々のアプローチは、現実の状況に挑戦する上で、ASRシステムをデプロイするための実用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2026-03-05T14:43:15Z) - Tool Verification for Test-Time Reinforcement Learning [70.09740926883818]
テスト時強化学習(TTRL)は、大規模推論モデルの自己進化のための有望なパラダイムとして登場した。
本稿では,T3RL(Tool-Verification for Test-Time Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-02T18:57:52Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Test-Time Training Provably Improves Transformers as In-context Learners [49.09821664572445]
テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。
テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。
経験的貢献として,TabPFNに対するTTTの有用性について検討した。
論文 参考訳(メタデータ) (2025-03-14T20:06:37Z) - Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection [36.407171992845456]
本稿では,AIモデルの集団リスクに対する有限サンプル統計保証を実現するために,適応型学習仮説テスト(aLTT)を導入する。
既存のLearning-then-test(LTT)技術とは異なり、aLTTは、eプロセスを活用することで早期終了を伴うシーケンシャルなデータ依存型多重仮説テスト(MHT)を実装している。
論文 参考訳(メタデータ) (2024-09-24T08:14:26Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - Uncovering Adversarial Risks of Test-Time Adaptation [41.19226800089764]
テスト時間適応(TTA)は、分散シフトに対処するための有望な解決策として提案されている。
我々は、良性サンプルの予測が同一バッチ内の悪意のあるサンプルに影響される可能性があるという知見に基づいて、TTAの新たなセキュリティ脆弱性を明らかにする。
テストバッチに少数の悪意のあるデータを注入する分散侵入攻撃(DIA)を提案する。
論文 参考訳(メタデータ) (2023-01-29T22:58:05Z) - Adversarial Attacks and Defense for Non-Parametric Two-Sample Tests [73.32304304788838]
本稿では,非パラメトリックTSTの障害モードを逆攻撃により系統的に明らかにする。
TST非依存的な攻撃を可能にするために,異なる種類のテスト基準を協調的に最小化するアンサンブル攻撃フレームワークを提案する。
そこで本研究では,TSTの強化のために,逆対を反復的に生成し,深層カーネルを訓練する最大最小最適化を提案する。
論文 参考訳(メタデータ) (2022-02-07T11:18:04Z) - Enhancing Adversarial Robustness via Test-time Transformation Ensembling [51.51139269928358]
テスト時間変換を組み込んだモデルを組み込むことが,敵攻撃に対する信頼性の高い防御手段として有効であることを示す。
TTEは、再トレーニングを必要とせずに、様々な強力な攻撃に対するモデルロバスト性を一貫して改善することを示します。
論文 参考訳(メタデータ) (2021-07-29T15:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。