論文の概要: Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
- arxiv url: http://arxiv.org/abs/2507.06229v1
- Date: Tue, 08 Jul 2025 17:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.44225
- Title: Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
- Title(参考訳): Agent KB:エージェント問題解決のためのクロスドメインエクスペリエンスを活用する
- Authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou,
- Abstract要約: Agent KBは、複雑なエージェント問題の解決を可能にする階層的な経験フレームワークである。
ハイレベル戦略と詳細な実行ログの両方をキャプチャすることで、Agent KBは、エージェント間の知識伝達を可能にする共有知識ベースを生成する。
- 参考スコア(独自算出の注目度): 40.51373344437501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language agents tackle increasingly complex tasks, they struggle with effective error correction and experience reuse across domains. We introduce Agent KB, a hierarchical experience framework that enables complex agentic problem solving via a novel Reason-Retrieve-Refine pipeline. Agent KB addresses a core limitation: agents traditionally cannot learn from each other's experiences. By capturing both high-level strategies and detailed execution logs, Agent KB creates a shared knowledge base that enables cross-agent knowledge transfer. Evaluated on the GAIA benchmark, Agent KB improves success rates by up to 16.28 percentage points. On the most challenging tasks, Claude-3 improves from 38.46% to 57.69%, while GPT-4 improves from 53.49% to 73.26% on intermediate tasks. On SWE-bench code repair, Agent KB enables Claude-3 to improve from 41.33% to 53.33%. Our results suggest that Agent KB provides a modular, framework-agnostic infrastructure for enabling agents to learn from past experiences and generalize successful strategies to new tasks.
- Abstract(参考訳): 言語エージェントはますます複雑なタスクに取り組むため、効果的なエラー修正とドメイン間の再利用に苦労する。
本稿では,新しいReason-Retrieve-Refineパイプラインを通じて複雑なエージェント問題の解決を可能にする階層的経験フレームワークであるAgent KBを紹介する。
エージェントKBは中核的な制限に対処する: エージェントは伝統的に互いの経験から学ぶことができない。
ハイレベル戦略と詳細な実行ログの両方をキャプチャすることで、Agent KBは、エージェント間の知識伝達を可能にする共有知識ベースを生成する。
GAIAベンチマークで評価すると、Agent KBは最大16.28ポイントの成功率を改善する。
最も困難なタスクでは、Claude-3は38.46%から57.69%に改善され、GPT-4は53.49%から73.26%に改善された。
SWEベンチのコード修復では、Agent KBはClaude-3を41.33%から53.33%に改善した。
この結果から,エージェントKBは,過去の経験から学習し,新たなタスクに成功戦略を一般化するための,モジュール化されたフレームワークに依存しない基盤を提供する可能性が示唆された。
関連論文リスト
- Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents [10.378745306569053]
VulTrialは、自動脆弱性検出を強化するために設計された法廷インスパイアされたフレームワークである。
セキュリティ研究者、コード作者、モデレーター、レビューボードの4つの役割専門エージェントを雇用している。
GPT-3.5とGPT-4oを使用して、VulTrialはそれぞれのベースラインに対して102.39%、84.17%の性能を向上させる。
論文 参考訳(メタデータ) (2025-05-16T07:54:10Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - 360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System [71.96888731208838]
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。
企業組織の実践にインスパイアされた階層的なマルチエージェントフレームワークである360$circ$REA(360$circ$REA)による再利用可能なエクスペリエンス蓄積を提案する。
論文 参考訳(メタデータ) (2024-04-08T14:43:13Z) - Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question Answering [42.277248862366164]
Triadは、KBQAタスクに3つの役割を持つLLMベースのエージェントを利用する統一フレームワークである。
我々のフレームワークは、エージェントの複数の役割の協調を含む4つのフェーズで実行される。
論文 参考訳(メタデータ) (2024-02-22T06:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。