論文の概要: Fleet of Agents: Coordinated Problem Solving with Large Language Models
- arxiv url: http://arxiv.org/abs/2405.06691v2
- Date: Thu, 17 Apr 2025 02:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:34:53.040769
- Title: Fleet of Agents: Coordinated Problem Solving with Large Language Models
- Title(参考訳): エージェントのフリート:大規模言語モデルを用いた協調的問題解決
- Authors: Nearchos Potamitis, Lars Klein, Roland Aydin, Robert West, Caglar Gulcehre, Akhil Arora,
- Abstract要約: Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。
FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。
FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
- 参考スコア(独自算出の注目度): 10.167121757937062
- License:
- Abstract: While numerous frameworks have been developed to enhance the reasoning abilities of large language models (LLMs), there is a scarcity of methods that effectively balance the trade-off between cost and quality. In this paper, we introduce Fleet of Agents (FoA), a novel and intuitive yet principled framework utilizing LLMs as agents to navigate through dynamic tree searches, employing a genetic-type particle filtering approach. FoA spawns a multitude of agents, each exploring the search space autonomously, followed by a selection phase where resampling based on a heuristic value function optimizes the balance between exploration and exploitation. This mechanism enables dynamic branching, adapting the exploration strategy based on discovered solutions. We conduct extensive experiments on three benchmark tasks, ``Game of 24'', ``Mini-Crosswords'', and ``WebShop'', utilizing four different LLMs, ``GPT-3.5'', ``GPT-4'', ``LLaMA3.2-11B'', and ``LLaMA3.2-90B''. On average across all tasks and LLMs, FoA obtains a quality improvement of ~5% while requiring only ~40% of the cost of previous SOTA methods. Notably, our analyses reveal that (1) FoA achieves the best cost-quality trade-off among all benchmarked methods and (2) FoA + LLaMA3.2-11B surpasses the Llama3.2-90B model. FoA is publicly available at https://github.com/au-clan/FoA.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論能力を高めるために、多くのフレームワークが開発されているが、コストと品質のトレードオフを効果的にバランスさせる手法が不足している。
本稿では,LLMを動的木探索のエージェントとして利用し,遺伝子型粒子フィルタリングを用いた新規かつ直感的なFoA(Fleet of Agents)を提案する。
FoAは多数のエージェントを生成し、それぞれが自律的に検索空間を探索し、続いてヒューリスティックな値関数に基づく再サンプリングが探索と搾取のバランスを最適化する選択フェーズを発生させる。
このメカニズムは動的分岐を可能にし、発見された解に基づいて探索戦略を適用する。
我々は,3つのベンチマークタスク, ``GPT-3.5'', ``GPT-4'', ``LLaMA3.2-11B'', ``LLaMA3.2-90B''の4つの異なるLCMを活用して, ``Game of 24'', ``Mini-Crosswords'', ``WebShop''の3つの実験を行った。
すべてのタスクとLLMで平均して、FoAは従来のSOTAメソッドのコストの約40%しか必要とせず、品質が約5%向上する。
特に,(1)FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを達成し,(2)FoA + LLaMA3.2-11BはLlama3.2-90Bモデルを上回った。
FoAはhttps://github.com/au-clan/FoA.comで公開されている。
関連論文リスト
- I-MCTS: Enhancing Agentic AutoML via Introspective Monte Carlo Tree Search [10.718560472954644]
イントロスペクティブモンテカルロ木探索(Introspective Monte Carlo Tree Search, I-MCTS)は、イントロスペクティブプロセスを通じてツリーノードを反復的に拡張する新しいアプローチである。
これにより、探索ツリー内のノードの継続的な改善が容易になり、全体的な意思決定プロセスが強化される。
LLM推定スコアから実際のパフォーマンススコアへQ値をシームレスに遷移させるハイブリッド報酬機構を実装した。
論文 参考訳(メタデータ) (2025-02-20T16:19:09Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Optimizing Cooperative path-finding: A Scalable Multi-Agent RRT* with Dynamic Potential Fields [11.872579571976903]
本研究では,多エージェントRT*ポテンシャル場(MA-RRT*PF)を提案する。
実験による評価は,MA-RRT*PFの高密度環境における従来のマルチエージェントRT* (MA-RRT*) よりも有意な優位性を示した。
論文 参考訳(メタデータ) (2019-11-16T13:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。