論文の概要: Towards Structured, State-Aware, and Execution-Grounded Reasoning for Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2602.04640v1
- Date: Wed, 04 Feb 2026 15:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.58516
- Title: Towards Structured, State-Aware, and Execution-Grounded Reasoning for Software Engineering Agents
- Title(参考訳): ソフトウェア工学エージェントのための構造化, 状態認識, 実行環境推論に向けて
- Authors: Tse-Hsun, Chen,
- Abstract要約: 私たちは、リアクティブな振る舞いを超えて、構造化され、状態認識され、実行基盤の推論に移行する必要があると論じています。
明示的な構造、永続的かつ進化的な状態、そして実行時のフィードバックの統合によって、SEエージェントがより一貫性と信頼性のある推論を行うのにどう役立つかを概説する。
- 参考スコア(独自算出の注目度): 20.481392033796265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software Engineering (SE) agents have shown promising abilities in supporting various SE tasks. Current SE agents remain fundamentally reactive, making decisions mainly based on conversation history and the most recent response. However, this reactive design provides no explicit structure or persistent state within the agent's memory, making long-horizon reasoning challenging. As a result, SE agents struggle to maintain a coherent understanding across reasoning steps, adapt their hypotheses as new evidence emerges, or incorporate execution feedback into the mental reasoning model of the system state. In this position paper, we argue that, to further advance SE agents, we need to move beyond reactive behavior toward a structured, state-aware, and execution-grounded reasoning. We outline how explicit structure, persistent and evolving state, and the integration of execution-grounded feedback can help SE agents perform more coherent and reliable reasoning in long-horizon tasks. We also provide an initial roadmap for developing next-generation SE agents that can more effectively perform real-world tasks.
- Abstract(参考訳): ソフトウェアエンジニアリング(SE)エージェントは、様々なSEタスクをサポートする有望な能力を示している。
現在のSEエージェントは、基本的には反応し、主に会話の歴史と最新の反応に基づいて決定する。
しかし、このリアクティブ設計は、エージェントのメモリ内に明示的な構造や永続的な状態を持たず、長い水平推論を困難にしている。
結果として、SEエージェントは推論ステップ全体にわたる一貫性のある理解を維持するのに苦労し、新たなエビデンスが発生するにつれて仮説を順応したり、システム状態のメンタル推論モデルに実行フィードバックを組み込むのに苦労する。
本論文では,SEエージェントをさらに前進させるためには,より反応性のある動作を超えて,構造化された状態認識,実行基盤推論に移行する必要がある,と論じる。
我々は,SEエージェントが長期的タスクにおいてより一貫性があり信頼性の高い推論を行う上で,構造的,永続的で進化的な状態,そして実行時のフィードバックの統合がいかに役立つかを概説する。
また、現実世界のタスクをより効果的に実行できる次世代SEエージェントを開発するための最初のロードマップも提供します。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - The Path Ahead for Agentic AI: Challenges and Opportunities [4.52683540940001]
この章では、複雑な環境で自律的に動作するエージェントAIシステムの出現について考察する。
我々は、統計モデルからトランスフォーマーベースのシステムへのアーキテクチャの進歩を辿り、エージェントの振る舞いを可能にする能力を識別する。
既存の調査とは異なり、私たちは、言語理解から自律的な行動へのアーキテクチャの移行に注目し、デプロイ前に解決しなければならない技術的ギャップを強調します。
論文 参考訳(メタデータ) (2026-01-06T06:31:42Z) - Towards Responsible and Explainable AI Agents with Consensus-Driven Reasoning [4.226647687395254]
本稿では,多モデルコンセンサスと推論層ガバナンスに基づく実運用レベルのエージェントのためのResponsible(RAI)およびExplainable(XAI)AIエージェントアーキテクチャを提案する。
提案した設計では、異種LLMとVLMエージェントのコンソーシアムが独立して、共有入力コンテキストから候補出力を生成する。
専用の推論エージェントは、これらのアウトプットをまたいで構造化された統合を行い、安全と政策の制約を強制し、幻覚と偏見を緩和し、監査可能な証拠に基づく決定を生成する。
論文 参考訳(メタデータ) (2025-12-25T14:49:25Z) - Real-Time Reasoning Agents in Evolving Environments [52.21796134114843]
進化する環境におけるエージェントに対する新しい問題定式化としてリアルタイム推論を導入する。
我々の研究は、実用的なエージェントを開発するための重要なテストベッドとしてリアルタイム推論を確立している。
論文 参考訳(メタデータ) (2025-11-07T00:51:02Z) - ProSEA: Problem Solving via Exploration Agents [1.1267979201719025]
本稿では,探索と計画の進化を通じて反復的な問題解決を実現するために設計されたモジュール型汎用マルチエージェントフレームワークであるProSEAを紹介する。
ProSEAは階層的なアーキテクチャで、管理者エージェントがドメイン固有の専門家エージェントを編成し、タスクを分解し、失敗した試みからの構造化されたフィードバックに基づいて適応的に再計画する。
挑戦的な FinanceBenchベンチマークの実験では、人間からのフィードバックがなくても、ProSEAは最先端のベースラインより優れ、推論に重きを置くタスク全体で堅牢なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-08T18:23:33Z) - WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [78.55946306325914]
有効なWebエージェントに必要な重要な推論スキルを同定する。
我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。
このアプローチは、複数のベンチマークで大幅に改善される。
論文 参考訳(メタデータ) (2025-05-26T14:03:37Z) - A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions [51.96890647837277]
大規模言語モデル(LLM)は、従来の対話システムから、自律的な行動、文脈認識、ユーザとのマルチターンインタラクションが可能な高度なエージェントへと、会話AIを推進してきた。
本調査では,人間レベルの知性にアプローチするよりスケーラブルなシステムにおいて,何が達成されたのか,どのような課題が持続するのか,何を行う必要があるのか,といった,次世代の会話エージェントのデシラトゥムを提示する。
論文 参考訳(メタデータ) (2025-04-07T21:01:25Z) - DANLI: Deliberative Agent for Following Natural Language Instructions [9.825482203664963]
本稿では、過去の経験から得られた神経的・象徴的表現に基づいて推論と計画を適用するニューロシンボリック・リベレティブ・エージェントを提案する。
TEAChベンチマークでは,リアクティブベースラインよりも70%以上の改善が達成されている。
論文 参考訳(メタデータ) (2022-10-22T15:57:01Z) - CausalCity: Complex Simulations with Agency for Causal Discovery and
Reasoning [68.74447489372037]
本稿では,因果探索と反事実推論のためのアルゴリズムの開発を目的とした,高忠実度シミュレーション環境を提案する。
私たちの作業の中核となるコンポーネントは、複雑なシナリオを定義して作成することが簡単になるような、テキストの緊急性を導入することです。
我々は3つの最先端の手法による実験を行い、ベースラインを作成し、この環境の可利用性を強調する。
論文 参考訳(メタデータ) (2021-06-25T00:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。