論文の概要: Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
- arxiv url: http://arxiv.org/abs/2507.06229v4
- Date: Mon, 21 Jul 2025 18:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 13:10:14.688865
- Title: Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving
- Title(参考訳): Agent KB:エージェント問題解決のためのクロスドメインエクスペリエンスを活用する
- Authors: Xiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou,
- Abstract要約: Agent KBはハイレベルな問題解決戦略と詳細な実行レッスンの両方をキャプチャする。
学生エージェントは戦略指導のためにワークフローレベルパターンを検索し、教師エージェントは改善のための実行レベルパターンを識別する。
- 参考スコア(独自算出の注目度): 40.51373344437501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI agents cannot effectively learn from each other's problem-solving experiences or use past successes to guide self-reflection and error correction in new tasks. We introduce Agent KB, a shared knowledge base that captures both high-level problem-solving strategies and detailed execution lessons, enabling knowledge transfer across agent frameworks. Agent KB implements a novel teacher-student dual-phase retrieval mechanism where student agents retrieve workflow-level patterns for strategic guidance while teacher agents identify execution-level patterns for refinement. This hierarchical approach enables agents to break out of limited reasoning pathways by incorporating diverse strategies from external sources. Evaluations on the GAIA benchmark demonstrate substantial performance gains, with Agent KB improving success rates by up to 6.06 percentage points overall under pass@1. For SWE-bench code repair tasks, our system significantly improved resolution rates, with o3-mini achieving an 8.67 percentage point gain (23 percent to 31.67 percent) in pass@1. Our ablation studies demonstrate that the refinement module proves most critical, with its removal causing a 3.85% drop on challenging Level 3 tasks, highlighting that effective knowledge transfer necessitates both strategic guidance and execution-level refinement.
- Abstract(参考訳): 現在のAIエージェントは、お互いの問題解決経験から効果的に学ぶことができず、過去の成功を使って、新しいタスクにおける自己回帰とエラー修正を導くことはできない。
我々は,高レベルの問題解決戦略と詳細な実行レッスンの両方をキャプチャし,エージェントフレームワーク間の知識伝達を可能にする共有知識ベースであるAgent KBを紹介する。
エージェントKBは、学生エージェントが戦略指導のためにワークフローレベルパターンを検索し、教師エージェントが洗練のための実行レベルパターンを識別する、新しい教師学生2段階検索機構を実装している。
この階層的なアプローチにより、エージェントは外部からの多様な戦略を取り入れることで、限られた推論経路から抜け出すことができる。
GAIAベンチマークの評価では、Agent KBは、pass@1.6%で、成功率を最大6.06ポイント改善した。
SWE-benchコード修復タスクでは,o3-miniが8.67ポイント(23パーセントから31.67パーセント)のパス@1。
我々のアブレーション研究では、改良モジュールが最も重要であり、その除去によってレベル3の課題が3.85%減少し、効果的な知識伝達が戦略的ガイダンスと実行レベルの改善の両方を必要とすることが示されている。
関連論文リスト
- RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。
挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文 参考訳(メタデータ) (2025-07-30T17:00:48Z) - OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation [65.15955645757705]
専門的な実行から戦略的計画を切り離す階層的なマルチエージェントフレームワークであるWorkforceを紹介します。
推論中、Workforceはワーカーエージェントの追加や修正によって新しいドメインにシームレスに適応する。
トレーニングには、ドメイン間の一般化を改善する最適化されたワークフォース学習(OWL)を導入する。
論文 参考訳(メタデータ) (2025-05-29T17:51:58Z) - Let the Trial Begin: A Mock-Court Approach to Vulnerability Detection using LLM-Based Agents [10.378745306569053]
VulTrialは、自動脆弱性検出を強化するために設計された法廷インスパイアされたフレームワークである。
セキュリティ研究者、コード作者、モデレーター、レビューボードの4つの役割専門エージェントを雇用している。
GPT-3.5とGPT-4oを使用して、VulTrialはそれぞれのベースラインに対して102.39%、84.17%の性能を向上させる。
論文 参考訳(メタデータ) (2025-05-16T07:54:10Z) - Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks [11.125564622217892]
大規模言語モデルエージェントは、人間の介入なしに自身の成功経験から学習することで改善する。
提案手法は,将来的なタスクのコンテキスト内例として機能する,自己生成トラジェクトリのデータベースを構築し,改良する。
我々の軌道ブートストラッピング技術は、エージェントが経験を通じて自律的に改善できることを示し、労働集約的な知識工学に代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-01T00:48:12Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z) - A Dual-Agent Adversarial Framework for Robust Generalization in Deep Reinforcement Learning [7.923577336744156]
両エージェント対応型政策学習フレームワークを提案する。
このフレームワークは、エージェントが人間の事前知識を導入することなく、基礎となるセマンティクスを自発的に学習することを可能にする。
実験により, 両エージェントの一般化性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2025-01-29T02:36:47Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents [106.87436596397816]
大規模言語モデル(LLM)エージェントは、現実世界のソフトウェア工学(SWE)問題を解決する大きな可能性を示している。
専門知識を活かしたフレームワークであるDEI(Diversity Empowered Intelligence)を提案する。
実験により、DEAが指導するエージェント委員会が、最高のエージェントのパフォーマンスを大きなマージンで上回ることが可能であることが示されている。
論文 参考訳(メタデータ) (2024-08-13T17:50:28Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - Devil's Advocate: Anticipatory Reflection for LLM Agents [53.897557605550325]
我々のアプローチは、LLMエージェントに対して、与えられたタスクを管理可能なサブタスクに分解するように促す。
イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(introspective intervention)を3回実施する。
潜在的な障害の予測と、アクション実行前の代替策。
サブタスクの目的とのポストアクションアライメントと、計画実行における最大限の努力を保証するための改善によるバックトラック。
論文 参考訳(メタデータ) (2024-05-25T19:20:15Z) - 360$^\circ$REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System [71.96888731208838]
評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。
企業組織の実践にインスパイアされた階層的なマルチエージェントフレームワークである360$circ$REA(360$circ$REA)による再利用可能なエクスペリエンス蓄積を提案する。
論文 参考訳(メタデータ) (2024-04-08T14:43:13Z) - Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question Answering [42.277248862366164]
Triadは、KBQAタスクに3つの役割を持つLLMベースのエージェントを利用する統一フレームワークである。
我々のフレームワークは、エージェントの複数の役割の協調を含む4つのフェーズで実行される。
論文 参考訳(メタデータ) (2024-02-22T06:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。