Fugu-MT 論文翻訳(概要): LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation

論文の概要: LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation

arxiv url: http://arxiv.org/abs/2506.01538v2
Date: Tue, 03 Jun 2025 07:53:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.278785
Title: LAMARL: LLM-Aided Multi-Agent Reinforcement Learning for Cooperative Policy Generation
Title（参考訳）: LAMARL:協調政策生成のためのLLM支援マルチエージェント強化学習
Authors: Guobin Zhu, Rui Zhou, Wenkang Ji, Shiyu Zhao,
Abstract要約: 大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。
参考スコア（独自算出の注目度）: 12.098817831819078
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although Multi-Agent Reinforcement Learning (MARL) is effective for complex multi-robot tasks, it suffers from low sample efficiency and requires iterative manual reward tuning. Large Language Models (LLMs) have shown promise in single-robot settings, but their application in multi-robot systems remains largely unexplored. This paper introduces a novel LLM-Aided MARL (LAMARL) approach, which integrates MARL with LLMs, significantly enhancing sample efficiency without requiring manual design. LAMARL consists of two modules: the first module leverages LLMs to fully automate the generation of prior policy and reward functions. The second module is MARL, which uses the generated functions to guide robot policy training effectively. On a shape assembly benchmark, both simulation and real-world experiments demonstrate the unique advantages of LAMARL. Ablation studies show that the prior policy improves sample efficiency by an average of 185.9% and enhances task completion, while structured prompts based on Chain-of-Thought (CoT) and basic APIs improve LLM output success rates by 28.5%-67.5%. Videos and code are available at https://windylab.github.io/LAMARL/
Abstract（参考訳）: MARL(Multi-Agent Reinforcement Learning)は、複雑なマルチロボットタスクに有効であるが、サンプル効率が低く、反復的な手動報酬調整を必要とする。大規模言語モデル (LLM) は単一ロボット設定で将来性を示すが、マルチロボットシステムにおけるそれらの応用はいまだほとんど探索されていない。本稿では, LLMとMARLを統合し, 手動設計を必要とせずに試料効率を大幅に向上する新しいLAMARL手法を提案する。 LAMARLは2つのモジュールから構成される: 最初のモジュールは LLM を利用して以前のポリシーと報酬関数の生成を完全に自動化する。第2のモジュールであるMARLは、生成された関数を使用して、ロボットポリシートレーニングを効果的にガイドする。形状アセンブリベンチマークでは、シミュレーションと実世界の実験の両方が、LAMARLの独特な利点を実証している。アブレーション研究では、以前のポリシーではサンプル効率が平均185.9%向上し、タスク完了が向上し、一方で、Chain-of-Thought (CoT)と基本APIに基づく構造化プロンプトにより、LCMの出力成功率は28.5%-67.5%向上している。ビデオとコードはhttps://windylab.github.io/LAMARL/で公開されている。

関連論文リスト

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文参考訳（メタデータ） (2024-08-28T15:52:23Z)
The Fellowship of the LLMs: Multi-Model Workflows for Synthetic Preference Optimization Dataset Generation [4.524402497958597]
本稿では,マルチモデルを用いた合成優先度最適化(PO)データセットの生成手法を提案する。データセット生成プロセスの自動化と向上において,これらの有効性と可能性を評価する。
論文参考訳（メタデータ） (2024-08-16T12:01:55Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文参考訳（メタデータ） (2024-05-04T20:34:06Z)
A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文参考訳（メタデータ） (2024-01-22T07:58:31Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文参考訳（メタデータ） (2023-11-09T13:18:27Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文参考訳（メタデータ） (2023-06-22T07:57:19Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。