Fugu-MT 論文翻訳(概要): 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System

論文の概要: 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System

arxiv url: http://arxiv.org/abs/2404.05569v1
Date: Mon, 8 Apr 2024 14:43:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 14:05:34.606985
Title: 360°REA: Towards A Reusable Experience Accumulation with 360° Assessment for Multi-Agent System
Title（参考訳）: 360°REA: マルチエージェントシステムのための360°アセスメントによる再利用可能な経験蓄積に向けて
Authors: Shen Gao, Hao Li, Zhengliang Shi, Chengrui Huang, Quan Tu, Zhiliang Tian, Minlie Huang, Shuo Shang,
Abstract要約: 評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。 360degREA(Reusable Experience Accumulation with 360deg Assessment)を提案する。
参考スコア（独自算出の注目度）: 69.95077041827592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language model agents have demonstrated remarkable advancements across various complex tasks. Recent works focus on optimizing the agent team or employing self-reflection to iteratively solve complex tasks. Since these agents are all based on the same LLM, only conducting self-evaluation or removing underperforming agents does not substantively enhance the capability of the agents. We argue that a comprehensive evaluation and accumulating experience from evaluation feedback is an effective approach to improving system performance. In this paper, we propose Reusable Experience Accumulation with 360{\deg} Assessment (360{\deg}REA), a hierarchical multi-agent framework inspired by corporate organizational practices. The framework employs a novel 360{\deg} performance assessment method for multi-perspective performance evaluation with fine-grained assessment. To enhance the capability of agents in addressing complex tasks, we introduce dual-level experience pool for agents to accumulate experience through fine-grained assessment. Extensive experiments on complex task datasets demonstrate the effectiveness of 360{\deg}REA.
Abstract（参考訳）: 大規模言語モデルエージェントは、様々な複雑なタスクにおいて顕著な進歩を見せている。最近の研究は、エージェントチームの最適化や、複雑なタスクを反復的に解決するために自己回帰を採用することに重点を置いている。これらの薬剤はいずれも同一のLDMに基づいているため、自己評価を行うか、性能の低い薬剤を除去するだけでは、エージェントの能力が著しく向上するわけではない。評価フィードバックからの経験を総合的に評価し蓄積することは、システム性能を改善するための効果的なアプローチである、と我々は主張する。本稿では,企業の組織的実践にインスパイアされた階層型マルチエージェントフレームワークである360{\deg} REAを用いた再利用可能な体験蓄積を提案する。このフレームワークは、細粒度評価を伴う多視点性能評価のための、新しい360{\deg}パフォーマンスアセスメント手法を採用している。複雑なタスクに対処するエージェントの能力を高めるために,エージェントが粒度の細かい評価によって経験を蓄積するための二重レベル体験プールを導入する。複雑なタスクデータセットに関する大規模な実験は、360{\deg}REAの有効性を示す。

関連論文リスト

Exploring Reasoning Reward Model for Agents [30.458783880389216]
エージェント強化学習(Agentic RL)は、エージェントが複雑な推論やツールの使用を行えるようにして、顕著な成功を収めた。ほとんどの手法は依然として、トレーニングに対するスパースな結果ベースの報酬に依存しています。本稿ではエージェント・リソン・リワードモデル(Agent-RRM)を紹介する。
論文参考訳（メタデータ） (2026-01-29T18:59:52Z)
AgentEvolver: Towards Efficient Self-Evolving Agent System [51.54882384204726]
本稿では,自律型エージェント学習を駆動する自己進化型エージェントシステムであるAgentEvolverを紹介する。 AgentEvolverは、セルフクエスト、セルフナビゲート、セルフコントリビューションという3つのシナジスティックメカニズムを導入している。予備実験により、AgentEvolverは従来のRLベースのベースラインと比較して、より効率的な探索、より優れたサンプル利用、より高速な適応を実現していることが示された。
論文参考訳（メタデータ） (2025-11-13T15:14:47Z)
A Comprehensive Empirical Evaluation of Agent Frameworks on Code-centric Software Engineering Tasks [14.762911285395047]
代表的な3つのコード中心タスクにまたがる7つの汎用エージェントフレームワークを評価する。この結果から,評価フレームワーク間の機能パターンとトレードオフが明らかとなった。オーバヘッドに関しては、ソフトウェア開発が最も金銭コストが高いのに対して、GPTswarmは依然として最もコスト効率が高い。
論文参考訳（メタデータ） (2025-11-02T09:46:59Z)
Completion $\ eq$ Collaboration: Scaling Collaborative Effort with Agents [48.95020665909723]
タスク完了エージェントの構築と評価から,協調エージェントの開発への移行を議論する。エージェントのユーティリティがユーザ関与の増加とともにどのように成長するかをキャプチャするフレームワークであるコラボレーティブ・ワーク・スケーリングを紹介します。
論文参考訳（メタデータ） (2025-10-29T17:47:18Z)
Beyond the Final Answer: Evaluating the Reasoning Trajectories of Tool-Augmented Agents [22.781523439717223]
エージェントのパフォーマンスを適切に評価するには、最終回答を超え、問題解決の軌跡も評価する必要がある。ツール拡張LDMエージェント性能の多次元評価のためのフレームワークであるTRACEを紹介する。 TRACEはこれらの複雑な挙動を,スケーラブルで費用対効果の高い方法で正確に評価する。
論文参考訳（メタデータ） (2025-10-03T09:19:15Z)
Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文参考訳（メタデータ） (2025-07-03T17:35:31Z)
An Adversary-Resistant Multi-Agent LLM System via Credibility Scoring [8.779871128906787]
信頼性スコアリングに基づく汎用・対向抵抗型マルチエージェントLCMフレームワークを提案する。私たちのシステムは、チームのアウトプットを集約するときに使用される信頼性スコアを関連付けています。
論文参考訳（メタデータ） (2025-05-30T05:57:37Z)
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文参考訳（メタデータ） (2025-05-29T07:24:37Z)
On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文参考訳（メタデータ） (2024-11-22T16:31:36Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。 6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文参考訳（メタデータ） (2024-05-29T18:08:37Z)
Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-07T11:33:49Z)
ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy [47.42940885853956]
A$3$TはAutonomousを実現するフレームワークである。法律の様式における代理人軌道の AlfWorldでは、A$3$Tで訓練されたエージェントが1発成功率96%、100%成功率4回を達成している。
論文参考訳（メタデータ） (2024-03-21T17:43:44Z)
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [76.95062553043607]
大きな言語モデル(LLM)を評価することは、その能力を理解し、実践的なアプリケーションへの統合を促進するために不可欠である。本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
論文参考訳（メタデータ） (2024-01-24T01:51:00Z)
Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2022-11-18T09:00:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。