Fugu-MT 論文翻訳(概要): MASTER: A Multi-Agent System with LLM Specialized MCTS

論文の概要: MASTER: A Multi-Agent System with LLM Specialized MCTS

arxiv url: http://arxiv.org/abs/2501.14304v1
Date: Fri, 24 Jan 2025 08:01:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.667744
Title: MASTER: A Multi-Agent System with LLM Specialized MCTS
Title（参考訳）: MASTER: LLM Specialized MCTS を用いたマルチエージェントシステム
Authors: Bingzheng Gan, Yufan Zhao, Tianyi Zhang, Jing Huang, Yusu Li, Shu Xian Teo, Changwang Zhang, Wei Shi,
Abstract要約: 大規模言語モデル(LLM)は、問題解決のためにますます研究されている。 MCTSは、真の報酬分布を近似するために、広範囲なサンプリングシミュレーションに依存している。 LLM特化MCTSを用いた戦術的実行と推論によるマルチエージェントシステムを提案する。
参考スコア（独自算出の注目度）: 11.780059513577848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLM) are increasingly being explored for problem-solving tasks. However, their strategic planning capability is often viewed with skepticism. Recent studies have incorporated the Monte Carlo Tree Search (MCTS) algorithm to augment the planning capacity of LLM. Despite its potential, MCTS relies on extensive sampling simulations to approximate the true reward distribution, leading to two primary issues. Firstly, MCTS is effective for tasks like the Game of Go, where simulation results can yield objective rewards (e.g., 1 for a win and 0 for a loss). However, for tasks such as question answering, the result of a simulation is the answer to the question, which cannot obtain an objective reward without the ground truth. Secondly, obtaining statistically significant reward estimations typically requires a sample size exceeding 30 simulations, resulting in excessive token usage and time consumption. To address these challenges, we present Multi-Agent System with Tactical Execution and Reasoning using LLM Specialized MCTS (MASTER), a novel framework that coordinates agent recruitment and communication using LLM specialized MCTS. This system autonomously adjusts the number of agents based on task complexity and ensures focused communication among them. Comprehensive experiments across various tasks demonstrate the effectiveness of our proposed framework. It achieves 76% accuracy on HotpotQA and 80% on WebShop, setting new state-of-the-art performance on these datasets.
Abstract（参考訳）: 大規模言語モデル(LLM)は、問題解決のためにますます研究されている。しかし、その戦略計画能力は懐疑的視されることが多い。近年、LCMの計画能力を高めるためにモンテカルロ木探索(MCTS)アルゴリズムが組み込まれている。その可能性にもかかわらず、MCTSは真の報酬分布を近似するために広範囲なサンプリングシミュレーションを頼りにしており、2つの主要な問題に繋がった。まず、MCTSはゲーム・オブ・ゴー(Game of Go)のようなタスクに有効であり、シミュレーションの結果は客観的な報酬(例えば、勝利は1、損失は0)を得られる。しかし、質問応答のようなタスクでは、シミュレーションの結果が質問に対する答えであり、基礎的な真実がなければ客観的な報酬を得ることができない。第二に、統計的に有意な報酬推定を得るためには、通常、サンプルサイズが30以上のシミュレーションを必要とするため、過剰なトークンの使用と時間消費が生じる。これらの課題に対処するために, LLM Specialized MCTS (MASTER) を用いたマルチエージェントシステムを提案する。本システムは,タスク複雑性に基づいてエージェント数を自律的に調整し,各エージェント間の集中的なコミュニケーションを確保する。様々なタスクにわたる総合的な実験により,提案手法の有効性が示された。 HotpotQAでは76%、WebShopでは80%の精度を実現しており、これらのデータセットでは新たな最先端のパフォーマンスが設定されている。

関連論文リスト

Balancing Information Accuracy and Response Timeliness in Networked LLMs [11.156009461711639]
大規模言語モデル(LLM)は、科学的発見、コンテンツ生成、生物医学的テキストマイニング、教育技術など、多くの分野を変革してきた。有望な代替手段は、より小さく特別な言語モデルを活用し、そのアウトプットを集約して、全体的な応答品質を改善することである。
論文参考訳（メタデータ） (2025-08-04T09:00:01Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。 14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Lipschitz Lifelong Monte Carlo Tree Search for Mastering Non-Stationary Tasks [19.42056439537988]
モンテカルロ木探索(MCTS)を用いたLipschitz生涯計画のためのLiZeroについて述べる。本稿では,ソースタスクから新しいタスクの探索・探索へ知識を伝達するための適応UCT(aUCT)の概念を提案する。実験の結果,LiZeroは既存のMCTSや生涯学習ベースラインよりはるかに優れており,最適報酬への収束がはるかに速いことがわかった。
論文参考訳（メタデータ） (2025-02-02T02:45:20Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Planning with Multi-Constraints via Collaborative Language Agents [13.550774629515843]
本稿では,協調型マルチエージェントシステムのためのゼロショット手法であるPMC(Planning with Multi-Constraints)を紹介する。 PMCは、制約で複雑なタスク計画を簡単にし、従属タスクの階層に分解する。 PMCはTravelPlannerで平均42.68%の成功率を記録し、GPT-4 (2.92%) をはるかに上回り、API-BankでReActを13.64%上回った。
論文参考訳（メタデータ） (2024-05-26T10:33:17Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文参考訳（メタデータ） (2023-10-02T17:23:48Z)
Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning [23.45043290237396]
MoSSは、自己監督型タスク表現学習に基づくコンテキストベースメタ強化学習アルゴリズムである。 MuJoCoとMeta-Worldのベンチマークでは、MoSSはパフォーマンス、サンプル効率(3-50倍高速)、適応効率、一般化の点で先行して性能が向上している。
論文参考訳（メタデータ） (2023-04-29T15:46:19Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。