論文の概要: Beyond the 'Diff': Addressing Agentic Entropy in Agentic Software Development
- arxiv url: http://arxiv.org/abs/2604.16323v2
- Date: Tue, 21 Apr 2026 08:30:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.886161
- Title: Beyond the 'Diff': Addressing Agentic Entropy in Agentic Software Development
- Title(参考訳): ディフ」を超えて - エージェントソフトウェア開発におけるエージェントのエントロピーに対処する
- Authors: Matteo Casserini, Alessandro Facchini, Andrea Ferrario,
- Abstract要約: エージェントによる決定が時間やツールコール,アーキテクチャ境界を越えてどのように展開されるかを明らかにする,プロセス指向の説明可能性フレームワークを提案する。
私たちのアプローチは、既存のレビュープラクティスを置き換えるのではなく、補完するインテントレベルのテレメトリを提供します。
認知的ドリフトをコード品質と並んで第一級の関心事として扱うことで、エージェントの監視に必要な人間の理解の最小レベルを安定的に維持する。
- 参考スコア(独自算出の注目度): 42.371764229953165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous coding agents become deeply embedded in software development workflows, their high operational velocity introduces a critical oversight challenge: the accumulating divergence between agentic actions and architectural intent. We term this process agentic entropy: a systemic drift that traditional code diff-based and HCXAI methods fail to capture, as they address local outputs rather than global agentic behaviour. To close this gap, we propose a process-oriented explainability framework that exposes how agentic decisions unfold across time, tool calls, and architectural boundaries. Built around three pillars (conformity seeding, reasoning monitoring, and a causal graph interface) our approach provides intent-level telemetry that complements, rather than replaces, existing review practices. We demonstrate its relevance across two user profiles: lay users engaged in vibe coding, who gain structural visibility otherwise masked by functional success; and professional developers, who gain richer contextual grounding for code review without increased overhead. By treating cognitive drift as a first-class concern alongside code quality, our framework supports the minimum level of human comprehension required for agentic oversight to remain substantive.
- Abstract(参考訳): 自律的なコーディングエージェントがソフトウェア開発ワークフローに深く浸透するにつれ、その高い運用速度は、エージェントアクションとアーキテクチャ意図の相違を蓄積する、重要な監視課題をもたらします。
従来のコード差分法とHCXAIメソッドは、グローバルなエージェント動作ではなく、ローカルな出力に対処するので、キャプチャーに失敗する。
このギャップを埋めるために、エージェントによる決定が時間、ツール呼び出し、アーキテクチャの境界を越えてどのように広がるかを明らかにするプロセス指向の説明可能性フレームワークを提案する。
当社のアプローチは,3つの柱(コンフォーマルシード,推論監視,因果グラフインターフェース)を中心に構築されています。
ビブコーディングに従事し、機能的な成功を隠蔽して構造的な可視性を得る、プロの開発者がオーバーヘッドを増大させることなく、コードレビューのよりリッチな土台を得る、という2つのユーザプロファイルに関連性を示す。
認知的ドリフトをコード品質と並んで第一級の関心事として扱うことで、エージェントの監視に必要な人間の理解の最小レベルを安定的に維持する。
関連論文リスト
- Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights [0.0]
我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法では,障害原因の同定を2.8倍高速に行うことができ,実際の実行トレースよりも73%高い精度で修正を提案する。
論文 参考訳(メタデータ) (2026-03-06T06:18:20Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - AgentProg: Empowering Long-Horizon GUI Agents with Program-Guided Context Management [24.465443389008055]
AgentProgはエージェントコンテキスト管理のためのプログラム誘導型アプローチである。
インタラクション履歴を変数と制御フローを備えたプログラムとして再構成する。
AndroidWorldと拡張ロングホライゾンタスクスイートの実験では、AgentProgが最先端の成功率を達成したことが示されています。
論文 参考訳(メタデータ) (2025-12-11T07:37:38Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。