論文の概要: Adapting LLM Agents Through Communication
- arxiv url: http://arxiv.org/abs/2310.01444v2
- Date: Tue, 10 Oct 2023 05:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:07:35.742126
- Title: Adapting LLM Agents Through Communication
- Title(参考訳): コミュニケーションによるLLMエージェントの適応
- Authors: Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang,
Yelong Shen
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩は、人間のようなエージェントの可能性を示している。
大規模言語モデル(LLM)の最近の進歩は、人間のようなエージェントの可能性を示している。
本稿では,新たな学習手法であるLearning through Communication(LTC)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 44.95629124618038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shown potential for
human-like agents. To help these agents adapt to new tasks without extensive
human supervision, we propose the Learning through Communication (LTC)
paradigm, a novel training approach enabling LLM agents to improve continuously
through interactions with their environments and other agents. Recent
advancements in large language models (LLMs) have shown potential for
human-like agents. To help these agents adapt to new tasks without extensive
human supervision, we propose the Learning through Communication (LTC)
paradigm, a novel training approach enabling LLM agents to improve continuously
through interactions with their environments and other agents. Through
iterative exploration and PPO training, LTC empowers the agent to assimilate
short-term experiences into long-term memory. To optimize agent interactions
for task-specific learning, we introduce three structured communication
patterns: Monologue, Dialogue, and Analogue-tailored for common tasks such as
decision-making, knowledge-intensive reasoning, and numerical reasoning. We
evaluated LTC on three datasets: ALFWorld (decision-making), HotpotQA
(knowledge-intensive reasoning), and GSM8k (numerical reasoning). On ALFWorld,
it exceeds the instruction tuning baseline by 12% in success rate. On HotpotQA,
LTC surpasses the instruction-tuned LLaMA-7B agent by 5.1% in EM score, and it
outperforms the instruction-tuned 9x larger PaLM-62B agent by 0.6%. On GSM8k,
LTC outperforms the CoT-Tuning baseline by 3.6% in accuracy. The results
showcase the versatility and efficiency of the LTC approach across diverse
domains. We will open-source our code to promote further development of the
community.
- Abstract(参考訳): 近年の大型言語モデル(llm)の発展は、人間のようなエージェントの可能性を示している。
これらのエージェントが人間の監督なしに新しいタスクに適応するのを助けるため、LLMエージェントが環境や他のエージェントとの対話を通じて継続的に改善できる新しいトレーニング手法であるLearning through Communication(LTC)パラダイムを提案する。
近年の大型言語モデル(llm)の発展は、人間のようなエージェントの可能性を示している。
これらのエージェントが人間の監督なしに新しいタスクに適応するのを助けるため、LLMエージェントが環境や他のエージェントとの対話を通じて継続的に改善できる新しいトレーニング手法であるLearning through Communication(LTC)パラダイムを提案する。
反復探索とPPO訓練を通じて、LCCはエージェントに短期経験を長期記憶に同化させる権限を与える。
タスク固有の学習のためのエージェントインタラクションを最適化するために,意思決定,知識集約的推論,数値推論などの共通タスクに適したモノログ,対話,アナログの3つの構造化通信パターンを導入する。
我々はALFWorld(意思決定)、HotpotQA(知識集約推論)、GSM8k(数値推論)の3つのデータセットでLCCを評価した。
ALFWorldでは、インストラクションチューニングベースラインを12%以上成功率で上回る。
HotpotQAでは、LCCは命令調整されたLLaMA-7Bエージェントを5.1%のEMスコアで上回り、命令調整された9倍のPaLM-62Bエージェントを0.6%上回っている。
GSM8kでは、LCCはCoT-Tuningベースラインの精度を3.6%上回る。
その結果,様々な領域にまたがるltcアプローチの汎用性と効率性が示された。
コミュニティのさらなる発展を促進するために、コードをオープンソースにします。
関連論文リスト
- Enhancing Language Multi-Agent Learning with Multi-Agent Credit Re-Assignment for Interactive Environment Generalization [37.37641889714614]
我々は,新しいマルチエージェントクレジット再割り当て戦略を備えたマルチエージェント強化学習フレームワークであるCollabUIAgentsを提案する。
我々は,マルチエージェントシステムの性能と環境横断の一般化性を両立させることを実証した。
論文 参考訳(メタデータ) (2025-02-20T12:26:15Z) - Multi-Agent Reinforcement Learning with Focal Diversity Optimization [7.498844064516196]
MARL-Focal と呼ばれる多エージェント強化学習手法を提案する。
本モデルでは,最高のLCMエージェントと比較して5.51%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T20:44:26Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。
セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-13T02:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。