Fugu-MT 論文翻訳(概要): Fleet of Agents: Coordinated Problem Solving with Large Language Models

論文の概要: Fleet of Agents: Coordinated Problem Solving with Large Language Models

arxiv url: http://arxiv.org/abs/2405.06691v3
Date: Sat, 10 May 2025 19:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 14:13:12.064017
Title: Fleet of Agents: Coordinated Problem Solving with Large Language Models
Title（参考訳）: エージェントのフリート:大規模言語モデルを用いた協調的問題解決
Authors: Lars Klein, Nearchos Potamitis, Roland Aydin, Robert West, Caglar Gulcehre, Akhil Arora,
Abstract要約: Fleet of Agents(FoA)は、動的ツリー検索をナビゲートするエージェントとして大きな言語モデルを利用する、原則化されたフレームワークである。 FoAは多数のエージェントを発生させ、それぞれが自律的に検索空間を探索し、次に選択フェーズを行う。 FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを実現し、FoA + LMA3.2-11BはLlama3.2-90Bモデルを上回る。
参考スコア（独自算出の注目度）: 10.167121757937062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While numerous frameworks have been developed to enhance the reasoning abilities of large language models (LLMs), there is a scarcity of methods that effectively balance the trade-off between cost and quality. In this paper, we introduce Fleet of Agents (FoA), a novel and intuitive yet principled framework utilizing LLMs as agents to navigate through dynamic tree searches, employing a genetic-type particle filtering approach. FoA spawns a multitude of agents, each exploring the search space autonomously, followed by a selection phase where resampling based on a heuristic value function optimizes the balance between exploration and exploitation. This mechanism enables dynamic branching, adapting the exploration strategy based on discovered solutions. We conduct extensive experiments on three benchmark tasks, ``Game of 24'', ``Mini-Crosswords'', and ``WebShop'', utilizing four different LLMs, ``GPT-3.5'', ``GPT-4'', ``LLaMA3.2-11B'', and ``LLaMA3.2-90B''. On average across all tasks and LLMs, FoA obtains a quality improvement of ~5% while requiring only ~40% of the cost of previous SOTA methods. Notably, our analyses reveal that (1) FoA achieves the best cost-quality trade-off among all benchmarked methods and (2) FoA + LLaMA3.2-11B surpasses the Llama3.2-90B model. FoA is publicly available at https://github.com/au-clan/FoA.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論能力を高めるために、多くのフレームワークが開発されているが、コストと品質のトレードオフを効果的にバランスさせる手法が不足している。本稿では,LLMを動的木探索のエージェントとして利用し,遺伝子型粒子フィルタリングを用いた新規かつ直感的なFoA(Fleet of Agents)を提案する。 FoAは多数のエージェントを生成し、それぞれが自律的に検索空間を探索し、続いてヒューリスティックな値関数に基づく再サンプリングが探索と搾取のバランスを最適化する選択フェーズを発生させる。このメカニズムは動的分岐を可能にし、発見された解に基づいて探索戦略を適用する。我々は,3つのベンチマークタスク, ``GPT-3.5'', ``GPT-4'', ``LLaMA3.2-11B'', ``LLaMA3.2-90B''の4つの異なるLCMを活用して, ``Game of 24'', ``Mini-Crosswords'', ``WebShop''の3つの実験を行った。すべてのタスクとLLMで平均して、FoAは従来のSOTAメソッドのコストの約40%しか必要とせず、品質が約5%向上する。特に,(1)FoAはすべてのベンチマーク手法の中で最高のコスト品質のトレードオフを達成し,(2)FoA + LLaMA3.2-11BはLlama3.2-90Bモデルを上回った。 FoAはhttps://github.com/au-clan/FoA.comで公開されている。

関連論文リスト

AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。 AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文参考訳（メタデータ） (2026-02-06T08:24:59Z)
AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search [19.443576967819684]
LLMエージェントは、内部推論と外部ツールの相互作用をインターリーブすることによって、マルチターンタスクに対処する強力なシステムとして登場した。マルチターンエージェントRLのための統合フレームワークであるAT$2$POを提案する。
論文参考訳（メタデータ） (2026-01-08T09:35:49Z)
A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文参考訳（メタデータ） (2025-10-13T17:08:25Z)
SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文参考訳（メタデータ） (2025-09-08T02:07:09Z)
MinionsLLM: a Task-adaptive Framework For The Training and Control of Multi-Agent Systems Through Natural Language [2.4171019220503402]
MinionsLLMは環境、エージェント、行動プリミティブを定義するための標準化されたインターフェイスを提供する。大規模言語モデル(LLM)と挙動木(BT)と形式文法を統合し、マルチエージェントシステムの自然言語制御を可能にする。
論文参考訳（メタデータ） (2025-08-01T13:10:29Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。 24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文参考訳（メタデータ） (2025-03-20T15:13:23Z)
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options [1.2289361708127877]
Flow-of-Options(FoO)は、Large Language Models(LLM)の固有のバイアスに対処するように設計されている。我々のフレームワークは最先端のベースラインを上回り、標準データサイエンスタスクで38.2%から69.2%の改善を達成した。全体的な運用コストはタスクあたり1ドル以下なので、当社のフレームワークはコストに敏感なアプリケーションに適しています。
論文参考訳（メタデータ） (2025-02-18T15:11:46Z)
Multi-Agent Reinforcement Learning with Focal Diversity Optimization [7.498844064516196]
MARL-Focal と呼ばれる多エージェント強化学習手法を提案する。本モデルでは,最高のLCMエージェントと比較して5.51%の性能向上を実現している。
論文参考訳（メタデータ） (2025-02-06T20:44:26Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Enhancing Financial Question Answering with a Multi-Agent Reflection Framework [0.0]
本稿では,各質問に対する推論ステップと最終回答を反映した批判エージェントを組み込んだマルチエージェントフレームワークを提案する。以上の結果から,このフレームワークはシングルエージェント推論に比べて性能が著しく向上することが示された。我々のフレームワークはLLaMA3.1-405B や GPT-4o-mini のようなより大きな単一エージェント LLM に匹敵する性能を持つ。
論文参考訳（メタデータ） (2024-10-29T04:58:07Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-20T04:36:02Z)
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文参考訳（メタデータ） (2024-03-19T16:26:10Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文参考訳（メタデータ） (2023-10-14T14:14:38Z)
Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文参考訳（メタデータ） (2023-10-06T10:40:46Z)
Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文参考訳（メタデータ） (2023-04-01T15:50:18Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Loosely Synchronized Search for Multi-agent Path Finding with Asynchronous Actions [10.354181009277623]
マルチエージェントパス検索(MAPF)は、各開始位置と目標位置の間の複数のエージェントの衝突のないパスのアンサンブルを決定する。この記事では、エージェントが必ずしも同時に起動および停止しない非同期アクションによるMAPFの自然な一般化を紹介します。
論文参考訳（メタデータ） (2021-03-08T02:34:17Z)
Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文参考訳（メタデータ） (2021-01-15T03:12:29Z)
Optimizing Cooperative path-finding: A Scalable Multi-Agent RRT* with Dynamic Potential Fields [11.872579571976903]
本研究では,多エージェントRT*ポテンシャル場(MA-RRT*PF)を提案する。実験による評価は,MA-RRT*PFの高密度環境における従来のマルチエージェントRT* (MA-RRT*) よりも有意な優位性を示した。
論文参考訳（メタデータ） (2019-11-16T13:02:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。