論文の概要: From Features to Actions: Explainability in Traditional and Agentic AI Systems
- arxiv url: http://arxiv.org/abs/2602.06841v1
- Date: Fri, 06 Feb 2026 16:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.482312
- Title: From Features to Actions: Explainability in Traditional and Agentic AI Systems
- Title(参考訳): 特徴から行動へ: 従来型およびエージェント型AIシステムにおける説明可能性
- Authors: Sindhuja Chaduvula, Jessee Ho, Kina Kim, Aravind Narayanan, Mahshid Alinoori, Muskan Garg, Dhanesh Ramachandram, Shaina Raza,
- Abstract要約: 我々は、帰属に基づく説明とトレースに基づく診断を比較することによって、静的とエージェント的説明のギャップを埋める。
以上の結果から,エージェント設定のためのトレースベースの診断は,常に動作の破壊を局所化することがわかった。
- 参考スコア(独自算出の注目度): 8.859406164948718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last decade, explainable AI has primarily focused on interpreting individual model predictions, producing post-hoc explanations that relate inputs to outputs under a fixed decision structure. Recent advances in large language models (LLMs) have enabled agentic AI systems whose behaviour unfolds over multi-step trajectories. In these settings, success and failure are determined by sequences of decisions rather than a single output. While useful, it remains unclear how explanation approaches designed for static predictions translate to agentic settings where behaviour emerges over time. In this work, we bridge the gap between static and agentic explainability by comparing attribution-based explanations with trace-based diagnostics across both settings. To make this distinction explicit, we empirically compare attribution-based explanations used in static classification tasks with trace-based diagnostics used in agentic benchmarks (TAU-bench Airline and AssistantBench). Our results show that while attribution methods achieve stable feature rankings in static settings (Spearman $ρ= 0.86$), they cannot be applied reliably to diagnose execution-level failures in agentic trajectories. In contrast, trace-grounded rubric evaluation for agentic settings consistently localizes behaviour breakdowns and reveals that state tracking inconsistency is 2.7$\times$ more prevalent in failed runs and reduces success probability by 49\%. These findings motivate a shift towards trajectory-level explainability for agentic systems when evaluating and diagnosing autonomous AI behaviour. Resources: https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
- Abstract(参考訳): 過去10年間、説明可能なAIは主に個々のモデルの予測を解釈することに集中し、固定された決定構造の下で入力と出力を関連づけるポストホックな説明を生み出してきた。
大規模言語モデル(LLM)の最近の進歩は、多段階軌道上に展開するエージェントAIシステムを可能にしている。
これらの設定では、成功と失敗は単一のアウトプットではなく、一連の決定によって決定される。
有用ではあるが、静的予測のために設計された説明アプローチが、時間とともに振る舞いが現れるエージェント的な設定にどのように変換されるかは、まだ不明である。
本研究では、属性に基づく説明と、両方の設定におけるトレースに基づく診断を比較することにより、静的とエージェント的説明のギャップを埋める。
この区別を明確化するために,静的分類タスクで使用される属性に基づく説明とエージェントベンチマーク(TAU-bench AirlineとAssistantBench)で使用されるトレースベースの診断とを実証的に比較した。
提案手法は静的な条件下では安定な特徴ランキング(Spearman $ρ= 0.86$)を達成できるが,エージェント軌道における実行レベル障害の診断には確実に適用できない。
対照的に、エージェント設定のためのトレースグラウンドのルーリック評価は、常に動作の破壊をローカライズし、状態追跡の不整合が2.7$\times$失敗でより多いことを明らかにし、成功確率を49\%削減する。
これらの知見は、自律的AI行動の評価と診断において、エージェントシステムの軌道レベルの説明可能性へのシフトを動機付けている。
資料:https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
関連論文リスト
- AgentRx: Diagnosing AI Agent Failures from Execution Trajectories [9.61742219198197]
構造化されたAPI、インシデント管理、オープンなWeb/ファイルタスクにまたがる115の障害トラジェクトリのベンチマークをリリースする。
各トラジェクトリには、臨界障害ステップと、基底理論から派生したクロスドメイン障害分類のカテゴリが注釈付けされている。
本稿では,ドメインに依存しない自動診断フレームワークであるAgentRXについて述べる。
論文 参考訳(メタデータ) (2026-02-02T18:54:07Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。
本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。
本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文 参考訳(メタデータ) (2025-09-26T12:07:47Z) - Robust Root Cause Diagnosis using In-Distribution Interventions [31.19149413954674]
複雑な相互接続システムにおける異常の根本原因を診断することは、今日のクラウドサービスや産業運用において、差し迫った問題である。
In-Distribution Interventions (IDI) は2つの基準を満たすノードとして根本原因を予測する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2025-05-02T00:19:43Z) - ALMANACS: A Simulatability Benchmark for Language Model Explainability [9.037709044327066]
言語モデル説明可能性ベンチマークであるALMANACSを提案する。
AlMANACSは、シミュラビリティに関する説明可能性の手法、すなわち、説明が新しい入力の振る舞い予測をいかに改善するかをスコアする。
ALMANACSは、他の言語モデルを使用して説明に基づいて振る舞いを予測することで、完全に自動化されたベンチマークである。
論文 参考訳(メタデータ) (2023-12-20T03:44:18Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。