論文の概要: Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement
- arxiv url: http://arxiv.org/abs/2511.05931v1
- Date: Sat, 08 Nov 2025 08:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.660133
- Title: Self-Abstraction from Grounded Experience for Plan-Guided Policy Refinement
- Title(参考訳): 計画誘導型政策リファインメントのための接地経験からの自己抽象化
- Authors: Hiroaki Hayashi, Bo Pang, Wenting Zhao, Ye Liu, Akash Gokul, Srijan Bansal, Caiming Xiong, Semih Yavuz, Yingbo Zhou,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、ソフトウェア工学のタスクに取り組むためにますます使われています。
エージェントが自身のタスク実行から学習することを可能にするフレームワークであるSAGE(Self-Abstraction from Grounded Experience)を提案する。
- 参考スコア(独自算出の注目度): 61.35824395228412
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model (LLM) based agents are increasingly used to tackle software engineering tasks that require multi-step reasoning and code modification, demonstrating promising yet limited performance. However, most existing LLM agents typically operate within static execution frameworks, lacking a principled mechanism to learn and self-improve from their own experience and past rollouts. As a result, their performance remains bounded by the initial framework design and the underlying LLM's capabilities. We propose Self-Abstraction from Grounded Experience (SAGE), a framework that enables agents to learn from their own task executions and refine their behavior through self-abstraction. After an initial rollout, the agent induces a concise plan abstraction from its grounded experience, distilling key steps, dependencies, and constraints. This learned abstraction is then fed back as contextual guidance, refining the agent's policy and supporting more structured, informed subsequent executions. Empirically, SAGE delivers consistent performance gains across diverse LLM backbones and agent architectures. Notably, it yields a 7.2% relative performance improvement over the strong Mini-SWE-Agent baseline when paired with the GPT-5 (high) backbone. SAGE further achieves strong overall performance on SWE-Bench Verified benchmark, reaching 73.2% and 74% Pass@1 resolve rates with the Mini-SWE-Agent and OpenHands CodeAct agent framework, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、多段階の推論とコード修正を必要とするソフトウェアエンジニアリングタスクに取り組むためにますます使われており、期待できるパフォーマンスが制限されていることを示している。
しかしながら、既存のLLMエージェントは一般的に静的実行フレームワーク内で動作し、自身の経験や過去のロールアウトから学び、自己改善する原則的なメカニズムが欠如している。
結果として、彼らのパフォーマンスは、初期フレームワーク設計と基盤となるLLMの能力に縛られ続けている。
本研究では,エージェントが自身のタスク実行から学習し,自己抽出を通じて行動を改善するためのフレームワークである,SAGE(Self-Abstraction from Grounded Experience)を提案する。
最初のロールアウトの後、エージェントはその基盤となる経験から簡潔な計画抽象化を誘導し、重要なステップ、依存関係、制約を蒸留する。
この学習された抽象化は、コンテキストガイダンスとして返され、エージェントのポリシーを精査し、より構造化され、その後の実行をサポートする。
経験的に、SAGEは多様なLLMバックボーンとエージェントアーキテクチャで一貫したパフォーマンス向上を提供します。
特に、GPT-5(High)バックボーンと組み合わせると、強力なMini-SWE-Agentベースラインよりも7.2%性能が向上する。
SAGEはSWE-Bench Verifiedベンチマークの全体的なパフォーマンスをさらに向上させ、Mini-SWE-AgentとOpenHands CodeActのエージェントフレームワークでそれぞれ73.2%と74%のPass@1リゾルバレートを達成した。
関連論文リスト
- EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle [26.048906477714937]
現在のLLM(Large Language Model)エージェントは、ツール使用時のパフォーマンスは高いが、自身の経験から体系的に学習する能力は欠如している。
EvolveRは、エージェントが完全なクローズドループ体験ライフサイクルを通じて自己改善できるように設計されたフレームワークである。
複雑なマルチホップ質問応答ベンチマークにおけるEvolveRの有効性を示す。
論文 参考訳(メタデータ) (2025-10-17T12:03:16Z) - Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Blueprint First, Model Second: A Framework for Deterministic LLM Workflow [3.9886771197662925]
我々は、"Blueprint First, Model Second"哲学に基づいた新しいパラダイムであるSource Code Agentフレームワークを紹介します。
私たちのフレームワークは、ワークフローロジックを生成モデルから切り離します。
我々の研究は、厳格な手続き論理に支配されるアプリケーションに自律エージェントを検証し、信頼性の高い配置を可能にする。
論文 参考訳(メタデータ) (2025-08-01T03:10:00Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。