論文の概要: Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability
- arxiv url: http://arxiv.org/abs/2601.17168v1
- Date: Fri, 23 Jan 2026 21:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.317069
- Title: Interpreting Agentic Systems: Beyond Model Explanations to System-Level Accountability
- Title(参考訳): エージェントシステムの解釈: モデル説明からシステムレベルの説明可能性まで
- Authors: Judy Zhu, Dhari Gandhi, Himanshu Joshi, Ahmad Rezaie Mianroodi, Sedef Akinli Kocak, Dhanesh Ramachandran,
- Abstract要約: エージェントシステムは、ゴール指向の振る舞いを持つ自律システムを構築するために、大規模言語モデルをどのように活用するかを変えてきた。
主に静的モデルのために開発された現在の解釈可能性技術は、エージェントシステムに適用する際の制限を示す。
本稿では,エージェントシステムにおける既存の解釈可能性手法の適合性と限界について検討する。
- 参考スコア(独自算出の注目度): 0.6745502291821954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems have transformed how Large Language Models (LLMs) can be leveraged to create autonomous systems with goal-directed behaviors, consisting of multi-step planning and the ability to interact with different environments. These systems differ fundamentally from traditional machine learning models, both in architecture and deployment, introducing unique AI safety challenges, including goal misalignment, compounding decision errors, and coordination risks among interacting agents, that necessitate embedding interpretability and explainability by design to ensure traceability and accountability across their autonomous behaviors. Current interpretability techniques, developed primarily for static models, show limitations when applied to agentic systems. The temporal dynamics, compounding decisions, and context-dependent behaviors of agentic systems demand new analytical approaches. This paper assesses the suitability and limitations of existing interpretability methods in the context of agentic systems, identifying gaps in their capacity to provide meaningful insight into agent decision-making. We propose future directions for developing interpretability techniques specifically designed for agentic systems, pinpointing where interpretability is required to embed oversight mechanisms across the agent lifecycle from goal formation, through environmental interaction, to outcome evaluation. These advances are essential to ensure the safe and accountable deployment of agentic AI systems.
- Abstract(参考訳): エージェントシステムは、大規模言語モデル(LLM)をどのように活用して、多段階計画と異なる環境との対話能力からなる目標指向の行動を持つ自律システムを構築するかを変えた。
これらのシステムは、アーキテクチャとデプロイメントの両方において、従来の機械学習モデルと根本的に異なり、目標のミスアライメント、決定エラーの複合化、対話エージェント間の調整リスクなど、独自のAI安全性の課題が導入されている。
主に静的モデルのために開発された現在の解釈可能性技術は、エージェントシステムに適用する際の制限を示す。
エージェントシステムの時間的ダイナミクス、複雑な決定、文脈に依存した振る舞いは、新しい分析的アプローチを必要とする。
本稿では,エージェントシステムの文脈における既存の解釈可能性手法の適合性と限界を評価し,エージェントの意思決定に有意義な洞察を与えるために,エージェントの能力のギャップを特定する。
本稿では,エージェントシステムに特化して設計された解釈可能性技術を開発するための今後の方向性を提案する。
これらの進歩は、エージェントAIシステムの安全かつ説明責任のあるデプロイを保証するために不可欠である。
関連論文リスト
- Institutional AI: A Governance Framework for Distributional AGI Safety [1.3763052684269788]
AIモデルのコア特性から生じる3つの構造的問題を同定する。
ソリューションはInstitutional AIであり、AIエージェント集団の効果的なガバナンスの問題としてアライメントを扱うシステムレベルのアプローチである。
論文 参考訳(メタデータ) (2026-01-15T17:08:26Z) - A Survey of Agentic AI and Cybersecurity: Challenges, Opportunities and Use-case Prototypes [7.02443431688472]
Agentic AIは、単一ステップ生成モデルから、長期的タスクに対する推論、計画、行動、適応が可能なシステムへの重要な転換点である。
本調査は,サイバーセキュリティにおけるエージェントAIの影響について検討する。
論文 参考訳(メタデータ) (2026-01-08T02:46:06Z) - The Path Ahead for Agentic AI: Challenges and Opportunities [4.52683540940001]
この章では、複雑な環境で自律的に動作するエージェントAIシステムの出現について考察する。
我々は、統計モデルからトランスフォーマーベースのシステムへのアーキテクチャの進歩を辿り、エージェントの振る舞いを可能にする能力を識別する。
既存の調査とは異なり、私たちは、言語理解から自律的な行動へのアーキテクチャの移行に注目し、デプロイ前に解決しなければならない技術的ギャップを強調します。
論文 参考訳(メタデータ) (2026-01-06T06:31:42Z) - Towards Responsible and Explainable AI Agents with Consensus-Driven Reasoning [4.226647687395254]
本稿では,多モデルコンセンサスと推論層ガバナンスに基づく実運用レベルのエージェントのためのResponsible(RAI)およびExplainable(XAI)AIエージェントアーキテクチャを提案する。
提案した設計では、異種LLMとVLMエージェントのコンソーシアムが独立して、共有入力コンテキストから候補出力を生成する。
専用の推論エージェントは、これらのアウトプットをまたいで構造化された統合を行い、安全と政策の制約を強制し、幻覚と偏見を緩和し、監査可能な証拠に基づく決定を生成する。
論文 参考訳(メタデータ) (2025-12-25T14:49:25Z) - Adaptation of Agentic AI [162.63072848575695]
我々は、急速に拡大する研究環境を、エージェント適応とツール適応の両方にまたがる体系的な枠組みに統一する。
エージェントAIにおける適応戦略の設計空間を明らかにする上で,本フレームワークが有効であることを示す。
次に、各カテゴリの代表的アプローチをレビューし、その強みと限界を分析し、主要なオープン課題と今後の機会を強調します。
論文 参考訳(メタデータ) (2025-12-18T08:38:51Z) - Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。
近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。
この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-08-10T16:07:32Z) - Internet of Agents: Fundamentals, Applications, and Challenges [68.9543153075464]
異種エージェント間のシームレスな相互接続、動的発見、協調的なオーケストレーションを可能にする基盤となるフレームワークとして、エージェントのインターネット(IoA)を紹介した。
我々は,機能通知と発見,適応通信プロトコル,動的タスクマッチング,コンセンサスとコンフリクト解決機構,インセンティブモデルなど,IoAの重要な運用イネーラを分析した。
論文 参考訳(メタデータ) (2025-05-12T02:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。