論文の概要: Weakest Link in the Chain: Security Vulnerabilities in Advanced Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.13726v1
- Date: Mon, 16 Jun 2025 17:32:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.186933
- Title: Weakest Link in the Chain: Security Vulnerabilities in Advanced Reasoning Models
- Title(参考訳): チェーンにおける最弱リンク:高度な推論モデルにおけるセキュリティ脆弱性
- Authors: Arjun Krishna, Aaditya Rastogi, Erick Galinkin,
- Abstract要約: 我々は、類似の非推論モデルと比較して、高度な推論モデルにおける弱点を体系的に評価する。
特定の攻撃タイプでは、推論モデルはかなり脆弱である(例えば、攻撃のツリーのプロンプトで最大32ポイント悪い)。
本研究は,言語モデルにおける高度な推論のセキュリティへの影響を浮き彫りにし,多様な手法によるストレステストの安全性の重要性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of advanced reasoning capabilities have improved the problem-solving performance of large language models, particularly on math and coding benchmarks. However, it remains unclear whether these reasoning models are more or less vulnerable to adversarial prompt attacks than their non-reasoning counterparts. In this work, we present a systematic evaluation of weaknesses in advanced reasoning models compared to similar non-reasoning models across a diverse set of prompt-based attack categories. Using experimental data, we find that on average the reasoning-augmented models are \emph{slightly more robust} than non-reasoning models (42.51\% vs 45.53\% attack success rate, lower is better). However, this overall trend masks significant category-specific differences: for certain attack types the reasoning models are substantially \emph{more vulnerable} (e.g., up to 32 percentage points worse on a tree-of-attacks prompt), while for others they are markedly \emph{more robust} (e.g., 29.8 points better on cross-site scripting injection). Our findings highlight the nuanced security implications of advanced reasoning in language models and emphasize the importance of stress-testing safety across diverse adversarial techniques.
- Abstract(参考訳): 高度な推論機能の導入により、特に数学やコーディングベンチマークにおいて、大規模言語モデルの問題解決性能が向上した。
しかし、これらの推論モデルが非合理的なモデルよりも敵の攻撃に対して脆弱であるかどうかは不明である。
本研究では,先進的推論モデルにおける弱点の体系的評価を,多様なプロンプトベースの攻撃カテゴリを対象とした類似の非推論モデルと比較する。
実験データを用いて、推理強化モデルの平均は、非推論モデルよりも「emph{slightly more robust"」(42.51\%対45.53\%、攻撃成功率より低い)であることが判明した。
特定の攻撃タイプでは、推論モデルは実質的に \emph{more vulnerable} (例えば、攻撃のツリーのプロンプトで最大32ポイント悪い)であるのに対し、他の場合は "emph{more robust} (例えば、クロスサイトスクリプティングインジェクションでは29.8ポイントよい)である。
本研究は,言語モデルにおける高度な推論のセキュリティへの影響を浮き彫りにし,多様な手法によるストレステストの安全性の重要性を強調した。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - Scaling Trends in Language Model Robustness [7.725206196110384]
言語モデルのロバスト性は,いくつかの分類課題,モデルファミリー,敵対的攻撃にまたがって研究される。
明確な安全性トレーニングがなければ、より大きなモデルの方が一貫して堅牢ではないことが分かっています。
攻撃の規模は、研究対象の全モデルにまたがる敵の訓練をはるかに上回るが、より大きな敵の訓練を受けたモデルは、長期的には防衛上の優位性をもたらす可能性がある。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Evaluating the Adversarial Robustness of Semantic Segmentation: Trying Harder Pays Off [0.6554326244334868]
対人摂動に対する感度の良好な近似は、現在満足していると見なされているものよりもはるかに多くの労力を要すると我々は主張する。
我々は新たな攻撃を提案し、文学で利用可能な最強の攻撃と組み合わせる。
我々の結果は、異なるモデルが異なる攻撃に対して脆弱であることが多いため、多様な強力な攻撃が必要であることも示している。
論文 参考訳(メタデータ) (2024-07-12T10:32:53Z) - Machine Translation Models Stand Strong in the Face of Adversarial
Attacks [2.6862667248315386]
本研究は,シークエンス・ツー・シークエンス(seq2seq)モデル,特に機械翻訳モデルに対する敵攻撃の影響に焦点を当てた。
我々は、基本的なテキスト摂動と、勾配に基づく攻撃のようなより高度な戦略を取り入れたアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-10T11:22:59Z) - On Evaluating the Adversarial Robustness of Semantic Segmentation Models [0.0]
敵の摂動に対する防御手段として、多くの敵の訓練アプローチが提案されている。
私たちは、前回の作業で堅牢であると主張するモデルが、実際にはまったく堅牢ではないことを初めて示しています。
次に, 強攻撃群においても, 合理的に堅牢なモデルを生成する, 単純な対向訓練アルゴリズムを評価する。
論文 参考訳(メタデータ) (2023-06-25T11:45:08Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Explain2Attack: Text Adversarial Attacks via Cross-Domain
Interpretability [18.92690624514601]
研究によると、下流のモデルは、トレーニングデータのような敵対的な入力で簡単に騙されるが、わずかに混乱している。
本稿では,テキスト分類タスクに対するブラックボックス攻撃であるExplain2Attackを提案する。
我々のフレームワークは、最先端モデルのアタックレートを達成または上回る一方、クエリコストの低減と効率の向上を図っている。
論文 参考訳(メタデータ) (2020-10-14T04:56:41Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。