論文の概要: Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains
- arxiv url: http://arxiv.org/abs/2511.19874v1
- Date: Tue, 25 Nov 2025 03:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.25269
- Title: Cross-LLM Generalization of Behavioral Backdoor Detection in AI Agent Supply Chains
- Title(参考訳): AIエージェントサプライチェーンにおける行動バックドア検出のクロスLLM一般化
- Authors: Arun Chowdary Sanna,
- Abstract要約: 本研究は,Cross-LLMビヘイビアバックドア検出に関する最初の体系的研究である。
単一モデル検出器は、トレーニング分布において92.7%の精度を達成するが、異なるLLM間で49.2%しか達成していないことを示す。
追加機能としてのモデル認識モデル同定は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents become integral to enterprise workflows, their reliance on shared tool libraries and pre-trained components creates significant supply chain vulnerabilities. While previous work has demonstrated behavioral backdoor detection within individual LLM architectures, the critical question of cross-LLM generalization remains unexplored, a gap with serious implications for organizations deploying multiple AI systems. We present the first systematic study of cross-LLM behavioral backdoor detection, evaluating generalization across six production LLMs (GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Llama 4 Maverick, GPT-OSS 120B, and DeepSeek Chat V3.1). Through 1,198 execution traces and 36 cross-model experiments, we quantify a critical finding: single-model detectors achieve 92.7% accuracy within their training distribution but only 49.2% across different LLMs, a 43.4 percentage point generalization gap equivalent to random guessing. Our analysis reveals that this gap stems from model-specific behavioral signatures, particularly in temporal features (coefficient of variation > 0.8), while structural features remain stable across architectures. We show that model-aware detection incorporating model identity as an additional feature achieves 90.6% accuracy universally across all evaluated models. We release our multi-LLM trace dataset and detection framework to enable reproducible research.
- Abstract(参考訳): AIエージェントがエンタープライズワークフローに不可欠なものになると、共有ツールライブラリや事前トレーニング済みのコンポーネントへの依存は、サプライチェーンの重大な脆弱性を生み出します。
これまでの研究は、個々のLLMアーキテクチャ内での振る舞いのバックドア検出を実証してきたが、クロスLLMの一般化に対する批判的な疑問は未解決のままであり、複数のAIシステムをデプロイする組織にとって深刻な意味を持つ。
GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Llama 4 Maverick, GPT-OSS 120B, DeepSeek Chat V3.1)。
1,198個の実行トレースと36個のクロスモデル実験を通して、我々は重要な発見を定量化する: 単一モデル検出器はトレーニング分布内で92.7%の精度を達成するが、異なるLLM間で49.2%しか得られず、43.4パーセントの点一般化ギャップはランダムな推測と同等である。
このギャップはモデル固有の行動シグネチャ、特に時間的特徴(変動の係数 > 0.8)に起因し、構造的特徴はアーキテクチャ全体にわたって安定している。
モデル識別を付加機能として組み込んだモデル認識検出は,すべての評価モデルに対して90.6%の精度で達成可能であることを示す。
再現可能な研究を可能にするマルチLLMトレースデータセットと検出フレームワークをリリースする。
関連論文リスト
- PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework [5.863391019411233]
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-04T21:48:11Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Multi-Hierarchical Feature Detection for Large Language Model Generated Text [2.5782420501870287]
AIテキスト検出のための多階層的特徴統合について検討した。
我々は,MHFD(Multi-Hierarchical Feature Detection)を実装し,適応融合による意味解析,構文解析,統計的確率特徴を統合する。
複数のベンチマークデータセットによる実験結果から、MHFD法はドメイン内検出において89.7%の精度を達成し、クロスドメイン検出において84.2%の安定した性能を維持し、既存の手法よりも0.4-2.6%の緩やかな改善を示した。
論文 参考訳(メタデータ) (2025-09-23T09:55:42Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。