論文の概要: Adapting LLM Agents with Universal Feedback in Communication
- arxiv url: http://arxiv.org/abs/2310.01444v3
- Date: Sun, 14 Apr 2024 03:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:47:12.246987
- Title: Adapting LLM Agents with Universal Feedback in Communication
- Title(参考訳): ユニバーサルフィードバックを用いたLLMエージェントの通信における適応
- Authors: Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, Yelong Shen,
- Abstract要約: 我々は,Learning through Communication (LTC)を導入し,大規模言語モデル(LLM)エージェントの訓練を容易にする。
全てのフィードバックを格納するためのユニバーサルバッファと、LCMエージェントがポリシーを探索して更新できるように反復パイプラインを設計する。
4つの多様なデータセットに対するLCCアプローチの有効性を評価した。
- 参考スコア(独自算出の注目度): 42.42697243815094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated potential for LLM agents. To facilitate the training for these agents with both linguistic feedback and non-linguistic reward signals, we introduce Learning through Communication (LTC). We design a universal buffer to store all the feedback, and an iterative pipeline to enable an LLM agent to explore and update its policy in an given environment. To optimize agent interactions for task-specific learning with our universal buffer and pipeline, we introduce diverse communication patterns tailored for both single-agent and multi-agent environments. We evaluate the efficacy of our LTC approach on four diverse datasets: ALFWorld (single-agent), HotpotQA (multi-agent collaboration), Chameleon (multi-agent competition), and GSM8k (multi-agent teacher-student). On these data sets, LTC outperforms the supervised instruction fine-tuning baselines by 3.6% to 12%. These results highlight the versatility and efficiency of LTC in facilitating online adaptation for LLM agents.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、LLMエージェントの可能性を示している。
言語的フィードバックと非言語的報酬信号の両方でこれらのエージェントの訓練を容易にするために,Learning through Communication (LTC)を紹介する。
我々は、すべてのフィードバックを格納するユニバーサルバッファと、LLMエージェントが所定の環境でポリシーを探索して更新できるように反復パイプラインを設計する。
タスク固有学習のためのエージェントインタラクションを汎用バッファとパイプラインで最適化するために,単一エージェント環境とマルチエージェント環境の両方に適した多様なコミュニケーションパターンを導入する。
ALFWorld (single-agent), HotpotQA (multi-agent collaboration), Chameleon (multi-agent competition), GSM8k (multi-agent teacher-student) の4つの多様なデータセットに対するLCCアプローチの有効性を検討した。
これらのデータセットでは、LCCは教師付き命令の微調整ベースラインを3.6%から12%上回っている。
これらの結果は, LLM エージェントのオンライン適応を促進するための LTC の汎用性と効率性を強調した。
関連論文リスト
- Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。
このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文 参考訳(メタデータ) (2024-10-10T16:45:28Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models [56.00992369295851]
オープンソースのLarge Language Models(LLM)は、さまざまなNLPタスクで大きな成功を収めていますが、エージェントとして振る舞う場合、それでもAPIベースのモデルよりもはるかに劣っています。
本稿では,(1) エージェント学習コーパスを,(1) エージェント学習データの分布から大きくシフトするエージェント推論と,(2) エージェントタスクが必要とする能力に異なる学習速度を示すエージェント学習コーパスと,(3) 幻覚を導入することでエージェント能力を改善する際の副作用について述べる。
本稿では,エージェントのためのFLANモデルを効果的に構築するためのエージェントFLANを提案する。
論文 参考訳(メタデータ) (2024-03-19T16:26:10Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - Large Language Model Enhanced Multi-Agent Systems for 6G Communications [94.45712802626794]
本稿では,自然言語を用いたコミュニケーション関連タスクを解くための,カスタマイズされたコミュニケーション知識とツールを備えたマルチエージェントシステムを提案する。
セマンティック通信システムの設計により,提案方式の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-13T02:35:57Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Multi-Agent Transfer Learning in Reinforcement Learning-Based
Ride-Sharing Systems [3.7311680121118345]
強化学習(Reinforcement Learning, RL)は、実世界の様々なシミュレーションタスクで使われている。
本稿では,固定ソースとターゲットロールを用いたTL転送パラメータの影響について検討する。
論文 参考訳(メタデータ) (2021-12-01T11:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。