論文の概要: Blue Teaming Function-Calling Agents
- arxiv url: http://arxiv.org/abs/2601.09292v1
- Date: Wed, 14 Jan 2026 08:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.342875
- Title: Blue Teaming Function-Calling Agents
- Title(参考訳): Blue Teaming Function-Calling Agents
- Authors: Greta Dolcetti, Giulio Zizzo, Sergio Maffeis,
- Abstract要約: 我々は,3つの異なる攻撃に対して,機能呼び出し機能を有するオープンソースLLMのロバスト性を評価する。
以上の結果から,これらのモデルがデフォルトでは安全ではないこと,防衛が現実のシナリオでまだ利用できないこと,などが分かる。
- 参考スコア(独自算出の注目度): 4.1793724623824895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an experimental evaluation that assesses the robustness of four open source LLMs claiming function-calling capabilities against three different attacks, and we measure the effectiveness of eight different defences. Our results show how these models are not safe by default, and how the defences are not yet employable in real-world scenarios.
- Abstract(参考訳): 本研究では,3つの異なる攻撃に対して機能呼び出し能力を有する4つのオープンソースLCMのロバスト性を評価する実験評価を行い,その有効性を評価する。
以上の結果から,これらのモデルがデフォルトでは安全ではないこと,防衛が現実のシナリオでまだ利用できないこと,などが分かる。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models [8.423787598133972]
本稿では,大規模言語モデル(LLM)の関数呼び出しプロセスにおける重大な脆弱性を明らかにする。
本稿では,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。
本研究は,LLMの機能呼び出し機能において,緊急のセキュリティ対策の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-07-25T10:09:21Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Automated Discovery of Adaptive Attacks on Adversarial Defenses [14.633898825111826]
未知の防御で特定のモデルに対する効果的な攻撃を自動的に発見するフレームワークを提案する。
敵防衛の信頼性評価のための最先端ツールであるAutoAttackよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-23T18:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。