論文の概要: DepRadar: Agentic Coordination for Context Aware Defect Impact Analysis in Deep Learning Libraries
- arxiv url: http://arxiv.org/abs/2601.09440v1
- Date: Wed, 14 Jan 2026 12:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.398409
- Title: DepRadar: Agentic Coordination for Context Aware Defect Impact Analysis in Deep Learning Libraries
- Title(参考訳): DepRadar:ディープラーニングライブラリにおけるコンテキスト認識の欠陥影響分析のためのエージェントコーディネート
- Authors: Yi Gao, Xing Hu, Tongtong Xu, Jiali Zhao, Xiaohu Yang, Xin Xia,
- Abstract要約: DepRadarは、DLライブラリのアップデートにおけるきめ細かい欠陥と影響分析のためのエージェント調整フレームワークである。
静的解析とDL固有のドメインルールを統合し、欠陥推論とクライアント側のトレースを行う。
122のクライアントプログラムにおいて、DepRadarは90%のリコールと80%の精度で影響を受けるケースを特定し、他のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 12.07621297131295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning libraries like Transformers and Megatron are now widely adopted in modern AI programs. However, when these libraries introduce defects, ranging from silent computation errors to subtle performance regressions, it is often challenging for downstream users to assess whether their own programs are affected. Such impact analysis requires not only understanding the defect semantics but also checking whether the client code satisfies complex triggering conditions involving configuration flags, runtime environments, and indirect API usage. We present DepRadar, an agent coordination framework for fine grained defect and impact analysis in DL library updates. DepRadar coordinates four specialized agents across three steps: 1. the PR Miner and Code Diff Analyzer extract structured defect semantics from commits or pull requests, 2. the Orchestrator Agent synthesizes these signals into a unified defect pattern with trigger conditions, and 3. the Impact Analyzer checks downstream programs to determine whether the defect can be triggered. To improve accuracy and explainability, DepRadar integrates static analysis with DL-specific domain rules for defect reasoning and client side tracing. We evaluate DepRadar on 157 PRs and 70 commits across two representative DL libraries. It achieves 90% precision in defect identification and generates high quality structured fields (average field score 1.6). On 122 client programs, DepRadar identifies affected cases with 90% recall and 80% precision, substantially outperforming other baselines.
- Abstract(参考訳): TransformersやMegatronといったディープラーニングライブラリは現在、現代のAIプログラムで広く採用されている。
しかしながら、これらのライブラリがサイレントな計算エラーから微妙なパフォーマンス回帰まで、欠陥を導入した場合、下流のユーザが自身のプログラムが影響しているかどうかを評価することはしばしば困難である。
このような影響分析は、欠陥セマンティクスを理解するだけでなく、クライアントコードが設定フラグ、ランタイム環境、間接的なAPI使用を含む複雑なトリガー条件を満たすかどうかを確認する必要がある。
本稿では,DLライブラリ更新におけるきめ細かい欠陥と影響分析のためのエージェントコーディネートフレームワークであるDepRadarを紹介する。
DepRadarは3つのステップで4つの特殊エージェントを調整します。
1. PR MinerとCode Diff Analyzerはコミットやプルリクエストから構造化された欠陥セマンティクスを抽出する。
2.オーケストレーションエージェントは、これらの信号をトリガー条件付き統一欠陥パターンに合成し、
3. Impact Analyzerは下流のプログラムをチェックし、欠陥をトリガーできるかどうかを判断する。
正確性と説明性を改善するために、DepRadarは静的解析と、欠陥推論とクライアント側のトレースのためのDL固有のドメインルールを統合している。
DepRadarを2つの代表的なDLライブラリで157のPRと70のコミットで評価した。
欠陥識別の90%の精度を実現し、高品質な構造化フィールドを生成する(平均場スコア1.6)。
122のクライアントプログラムにおいて、DepRadarは90%のリコールと80%の精度で影響を受けるケースを特定し、他のベースラインを大幅に上回っている。
関連論文リスト
- ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Temporal Attack Pattern Detection in Multi-Agent AI Workflows: An Open Framework for Training Trace-Based Security Models [0.0]
マルチエージェントAIにおける時間的攻撃パターンを検出するために,言語モデルを微調整するためのオープンドキュメンテーション手法を提案する。
18の公開サイバーセキュリティソースと35,026の合成OpenTelemetryトレースから80,851のデータセットをキュレートする。
カスタムベンチマークの精度は42.86%から74.29%に向上し、統計的に有意な31.4ポイントの上昇となった。
論文 参考訳(メタデータ) (2025-12-29T09:41:22Z) - Argus: A Multi-Agent Sensitive Information Leakage Detection Framework Based on Hierarchical Reference Relationships [17.30790083446847]
センシティブな情報を検出するための多エージェント協調フレームワークArgusを提案する。
Argusは、キーコンテンツ、ファイルコンテキスト、プロジェクト参照関係を統合する3層検出メカニズムを採用している。
実験の結果、アルガスは96.36%、リコール94.64%、F1スコア0.955で、最大94.86%の精度で漏れ検出に成功した。
論文 参考訳(メタデータ) (2025-12-09T07:42:10Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Towards Automated Error Discovery: A Study in Conversational AI [48.735443116662026]
本稿では,会話型AIにおけるエラーの検出と定義のためのフレームワークであるAutomated Error Discoveryを紹介する。
また,その実装に対するエンコーダに基づくアプローチとして,SEEED(Soft Clustering Extended-Based Error Detection)を提案する。
論文 参考訳(メタデータ) (2025-09-13T14:53:22Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。
パッチの有無テストは 脆弱性を検出する効果的な方法の1つです
パッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:35:37Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。