論文の概要: Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models
- arxiv url: http://arxiv.org/abs/2503.01781v1
- Date: Mon, 03 Mar 2025 18:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:08.489362
- Title: Cats Confuse Reasoning LLM: Query Agnostic Adversarial Triggers for Reasoning Models
- Title(参考訳): 猫はLLMを混乱させる: 共振モデルのための問合せアドバーサリアルトリガー
- Authors: Meghana Rajeev, Rajkumar Ramamurthy, Prapti Trivedi, Vikas Yadav, Oluwanifemi Bamgbose, Sathwik Tejaswi Madhusudan, James Zou, Nazneen Rajani,
- Abstract要約: 本稿では,問合せに依存しない逆引き金を導入することで,段階ごとの問題解決を訓練した推論モデルのロバスト性について検討する。
より弱く安価なプロキシモデル上でトリガを生成する自動反復攻撃パイプラインであるCatAttackを提案する。
我々の研究結果は、推論モデルにおける重大な脆弱性を浮き彫りにして、最先端モデルでさえ、微妙な敵の入力に影響を受けやすいことを明らかにした。
- 参考スコア(独自算出の注目度): 25.056805558945232
- License:
- Abstract: We investigate the robustness of reasoning models trained for step-by-step problem solving by introducing query-agnostic adversarial triggers - short, irrelevant text that, when appended to math problems, systematically mislead models to output incorrect answers without altering the problem's semantics. We propose CatAttack, an automated iterative attack pipeline for generating triggers on a weaker, less expensive proxy model (DeepSeek V3) and successfully transfer them to more advanced reasoning target models like DeepSeek R1 and DeepSeek R1-distilled-Qwen-32B, resulting in greater than 300% increase in the likelihood of the target model generating an incorrect answer. For example, appending, "Interesting fact: cats sleep most of their lives," to any math problem leads to more than doubling the chances of a model getting the answer wrong. Our findings highlight critical vulnerabilities in reasoning models, revealing that even state-of-the-art models remain susceptible to subtle adversarial inputs, raising security and reliability concerns. The CatAttack triggers dataset with model responses is available at https://huggingface.co/datasets/collinear-ai/cat-attack-adversarial-triggers.
- Abstract(参考訳): 本稿では,質問非依存の逆数トリガーを導入することによって,段階的に学習した推論モデルのロバスト性について検討する。
より弱く安価なプロキシモデル(DeepSeek V3)上でトリガを生成する自動反復攻撃パイプラインであるCatAttackを提案し、それらをDeepSeek R1やDeepSeek R1-distilled-Qwen-32Bのようなより高度な推論対象モデルに転送することに成功した。
例えば、"興味深い事実:猫は人生のほとんどを眠る"と、どんな数学問題にも加えると、モデルが答えを間違える確率は2倍になる。
我々の発見は、推論モデルの重大な脆弱性を強調し、最先端のモデルでさえ、微妙な敵の入力を受けやすいままであり、セキュリティと信頼性の懸念が高まることを明らかにした。
CatAttackはモデルレスポンスを備えたデータセットを起動する。https://huggingface.co/datasets/collinear-ai/cat- attack-adversarial-triggers.comで利用できる。
関連論文リスト
- Confidence Elicitation: A New Attack Vector for Large Language Models [32.22764815262567]
数十億のパラメータを持つ大規模言語モデル(LLM)は、以前の小さな言語と同様、敵攻撃に苦しむ。
クローズドソースモデルの導入により、生成された出力とは別に、モデルに関する情報は得られない。
これは、現在のブラックボックス攻撃が最終予測を利用して攻撃が成功したかどうかを検出することを意味する。
本研究は,ブラックボックスアクセスのみを分類した状態で,出力確率を用いた攻撃誘導の可能性について検討し,実証する。
論文 参考訳(メタデータ) (2025-02-07T04:07:36Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Frontier Language Models are not Robust to Adversarial Arithmetic, or
"What do I need to say so you agree 2+2=5? [88.59136033348378]
言語モデルアライメントのための単純なテストベッドを提供する逆算術の問題を考察する。
この問題は自然言語で表される算術的な問題から成り、質問が完了する前に任意の逆文字列を挿入する。
これらの攻撃に対して、強化学習やエージェント構成ループを通じて、モデルを部分的に強化できることが示される。
論文 参考訳(メタデータ) (2023-11-08T19:07:10Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - Label-only Model Inversion Attack: The Attack that Requires the Least
Information [14.061083728194378]
モデル反転攻撃では、敵はモデル出力のみを使用してターゲットモデルをトレーニングするために使用されるデータレコードを再構築しようと試みる。
出力ラベルのみに基づいて入力データレコードを再構成できるモデル逆変換法が発見された。
論文 参考訳(メタデータ) (2022-03-13T03:03:49Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。