論文の概要: Rethinking Reasoning: A Survey on Reasoning-based Backdoors in LLMs
- arxiv url: http://arxiv.org/abs/2510.07697v1
- Date: Thu, 09 Oct 2025 02:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.815694
- Title: Rethinking Reasoning: A Survey on Reasoning-based Backdoors in LLMs
- Title(参考訳): 推論の再考:LLMにおける推論に基づくバックドアに関する調査
- Authors: Man Hu, Xinyi Wu, Zuofeng Suo, Jinbo Feng, Linghui Meng, Yanhao Jia, Anh Tuan Luu, Shuai Zhao,
- Abstract要約: 大規模言語モデル(LLM)における推論ベースのバックドア攻撃は、セキュリティリスクを引き起こす。
本稿では,既存のアプローチを要約し,推論に基づくバックドア攻撃を連想的,受動的,活発に分類する新たな分類法を提案する。
また、このような攻撃に対する防衛戦略を提示し、今後の研究の方向性とともに現在の課題について議論する。
- 参考スコア(独自算出の注目度): 37.27924012437224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of advanced reasoning capabilities, large language models (LLMs) are receiving increasing attention. However, although reasoning improves LLMs' performance on downstream tasks, it also introduces new security risks, as adversaries can exploit these capabilities to conduct backdoor attacks. Existing surveys on backdoor attacks and reasoning security offer comprehensive overviews but lack in-depth analysis of backdoor attacks and defenses targeting LLMs' reasoning abilities. In this paper, we take the first step toward providing a comprehensive review of reasoning-based backdoor attacks in LLMs by analyzing their underlying mechanisms, methodological frameworks, and unresolved challenges. Specifically, we introduce a new taxonomy that offers a unified perspective for summarizing existing approaches, categorizing reasoning-based backdoor attacks into associative, passive, and active. We also present defense strategies against such attacks and discuss current challenges alongside potential directions for future research. This work offers a novel perspective, paving the way for further exploration of secure and trustworthy LLM communities.
- Abstract(参考訳): 高度な推論能力の台頭に伴い、大きな言語モデル(LLM)が注目を集めている。
しかし、推論は下流タスクでのLSMのパフォーマンスを改善するが、敵がこれらの機能を悪用してバックドア攻撃を行うため、新たなセキュリティリスクももたらした。
バックドア攻撃と推論セキュリティに関する既存の調査は、包括的な概要を提供するが、バックドア攻撃の詳細な分析とLLMの推論能力をターゲットにした防御機能が欠如している。
本稿では,LLMにおける推論に基づくバックドア攻撃の包括的レビューを行うための第一歩として,その基盤となるメカニズム,方法論的枠組み,未解決課題について分析する。
具体的には、既存のアプローチを要約し、推論に基づくバックドア攻撃を連想的、受動的、アクティブに分類するための統一的な視点を提供する新しい分類法を導入する。
また、このような攻撃に対する防衛戦略を提示し、今後の研究の方向性とともに現在の課題について議論する。
この研究は新たな視点を提供し、安全で信頼性の高いLLMコミュニティをさらに探究するための道を開いた。
関連論文リスト
- When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations [58.27927090394458]
大規模言語モデル(LLM)は、バックドア攻撃に弱いことが知られている。
本稿では,自然言語説明の新しいレンズによるバックドア攻撃について検討する。
以上の結果から,バックドアモデルではクリーンな入力に対してコヒーレントな説明が得られたが,有毒なデータに対して多様かつ論理的に欠陥のある説明が得られた。
論文 参考訳(メタデータ) (2024-11-19T18:11:36Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - A Survey of Recent Backdoor Attacks and Defenses in Large Language Models [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。