論文の概要: Assertion-Conditioned Compliance: A Provenance-Aware Vulnerability in Multi-Turn Tool-Calling Agents
- arxiv url: http://arxiv.org/abs/2512.00332v1
- Date: Sat, 29 Nov 2025 05:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.174914
- Title: Assertion-Conditioned Compliance: A Provenance-Aware Vulnerability in Multi-Turn Tool-Calling Agents
- Title(参考訳): Assertion-Conditioned Compliance: マルチTurnツールカートリングエージェントにおけるプロヴァンス・アウェア・脆弱性
- Authors: Daud Waqas, Aaryamaan Golthi, Erika Hayashida, Huanzhi Mao,
- Abstract要約: マルチターンツールコール LLM は、現代のAIアシスタントにおいて重要な機能として現れている。
多くの安全上重要な産業では、マルチターンパイプラインの実装は依然として困難である。
マルチターンの会話レベルの堅牢性には、まだ可視性がない。
- 参考スコア(独自算出の注目度): 0.4666493857924358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn tool-calling LLMs (models capable of invoking external APIs or tools across several user turns) have emerged as a key feature in modern AI assistants, enabling extended dialogues from benign tasks to critical business, medical, and financial operations. Yet implementing multi-turn pipelines remains difficult for many safety-critical industries due to ongoing concerns regarding model resilience. While standardized benchmarks such as the Berkeley Function-Calling Leaderboard (BFCL) have underpinned confidence concerning advanced function-calling models (like Salesforce's xLAM V2), there is still a lack of visibility into multi-turn conversation-level robustness, especially given their exposure to real-world systems. In this paper, we introduce Assertion-Conditioned Compliance (A-CC), a novel evaluation paradigm for multi-turn function-calling dialogues. A-CC provides holistic metrics that evaluate a model's behavior when confronted with misleading assertions originating from two distinct vectors: (1) user-sourced assertions (USAs), which measure sycophancy toward plausible but misinformed user beliefs, and (2) function-sourced assertions (FSAs), which measure compliance with plausible but contradictory system policies (e.g., stale hints from unmaintained tools). Our results show that models are highly vulnerable to both USA sycophancy and FSA policy conflicts, confirming A-CC as a critical, latent vulnerability in deployed agents.
- Abstract(参考訳): マルチターンツールコール LLM(外部APIや複数のユーザターンにまたがるツールを呼び出し可能なモデル)は、現代のAIアシスタントにおいて重要な機能として登場し、良心的なタスクから重要なビジネス、医療、金融操作への対話を可能にする。
しかし、モデルレジリエンスに関する懸念が続いているため、多くの安全クリティカルな産業ではマルチターンパイプラインの実装は難しいままである。
Berkeley Function-Calling Leaderboard (BFCL)のような標準化されたベンチマークは、高度な関数呼び出しモデル(SalesforceのxLAM V2など)に対する信頼の基盤となっているが、マルチターンの会話レベルの堅牢性、特に現実世界のシステムに露出していることを考えると、まだ可視性に欠ける。
本稿では,マルチターン関数呼び出し対話のための新しい評価パラダイムであるAssertion-Conditioned Compliance (A-CC)を紹介する。
A-CCは、2つの異なるベクトルから派生した誤解を招くアサーションと向き合うときのモデルの振る舞いを評価する総合的な指標を提供する。(1) ユーザソースアサーション(USA)、(2) 機能ソースアサーション(FSA)、(2) 機能ソースアサーション(FSA)は、可塑性だが矛盾するシステムポリシー(例えば、メンテナンスされていないツールからの古いヒント)。
以上の結果から,A-CCはデプロイエージェントの致命的かつ潜伏的な脆弱性であることが確認された。
関連論文リスト
- Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities [5.0778942095543576]
本稿では,大規模言語モデルの意思決定過程を体系的にストレステストする逆評価フレームワークを提案する。
我々は、GPT-3.5、GPT-4、Gemini-1.5、DeepSeek-V3など、最先端のLLMに適用する。
我々の研究は、モデル間で異なる行動パターンを強調し、信頼できるAIデプロイメントにおける適応性と公平性認識の重要性を強調した。
論文 参考訳(メタデータ) (2025-05-19T14:50:44Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - On the Robustness of Agentic Function Calling [5.0243930429558885]
大規模言語モデル(LLM)は、タスクのための特定のツールを呼び出すことができる機能呼び出し(FC)機能を備えた、自律的なエージェントとしてますます機能している。
本稿では,2つの重要な領域においてFCのロバスト性を評価するベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-04-01T15:48:26Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - Steering Language Model Refusal with Sparse Autoencoders [16.304363931580273]
この研究は、SAEステアリングに基づく安全改善と一般的なモデル機能との緊張関係を明らかにする。
本研究は,言語モデルにおける安全関連機能の性質に関する重要なオープンな疑問を明らかにするものである。
論文 参考訳(メタデータ) (2024-11-18T05:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。