論文の概要: AGILE: A Novel Reinforcement Learning Framework of LLM Agents
- arxiv url: http://arxiv.org/abs/2405.14751v2
- Date: Tue, 05 Nov 2024 09:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:56:10.157218
- Title: AGILE: A Novel Reinforcement Learning Framework of LLM Agents
- Title(参考訳): AGILE: LLMエージェントの新しい強化学習フレームワーク
- Authors: Peiyuan Feng, Yichen He, Guanhua Huang, Yuan Lin, Hanchong Zhang, Yuchen Zhang, Hang Li,
- Abstract要約: 本稿では,ユーザとの複雑な対話処理を実現するために,LLMエージェントの強化学習フレームワークを提案する。
エージェントは、リフレクション、ツールの使用、専門家の相談など、会話以外の能力を持っている。
実験の結果, PPOで訓練した7Bおよび13B LLMをベースとしたAGILEは, GPT-4エージェントより優れていた。
- 参考スコア(独自算出の注目度): 7.982249117182315
- License:
- Abstract: We introduce a novel reinforcement learning framework of LLM agents named AGILE (AGent that Interacts and Learns from Environments) designed to perform complex conversational tasks with users, leveraging LLMs, memory, tools, and interactions with experts. The agent possesses capabilities beyond conversation, including reflection, tool usage, and expert consultation. We formulate the construction of such an LLM agent as a reinforcement learning (RL) problem, in which the LLM serves as the policy model. We fine-tune the LLM using labeled data of actions and the PPO algorithm. We focus on question answering and release a dataset for agents called ProductQA, comprising challenging questions in online shopping. Our extensive experiments on ProductQA, MedMCQA and HotPotQA show that AGILE agents based on 7B and 13B LLMs trained with PPO can outperform GPT-4 agents. Our ablation study highlights the indispensability of memory, tools, consultation, reflection, and reinforcement learning in achieving the agent's strong performance. Datasets and code are available at https://github.com/bytarnish/AGILE.
- Abstract(参考訳): 本稿では,ユーザとの複雑な対話作業の実施を目的とした,AGILE(AGent that Interacts and Learns from Environments)というLLMエージェントの強化学習フレームワークを提案する。
エージェントは、リフレクション、ツールの使用、専門家の相談など、会話以外の能力を持っている。
本稿では,LLM が政策モデルとして機能する強化学習(RL)問題として,そのような LLM エージェントの構築を定式化する。
ラベル付きアクションデータとPPOアルゴリズムを用いてLLMを微調整する。
我々は、オンラインショッピングにおいて難しい質問を含む、ProductQAと呼ばれるエージェントのための質問応答とデータセットのリリースに注力する。
ProductQA, MedMCQAおよびHotPotQAの広範囲な実験により, PPOで訓練した7Bおよび13B LLMをベースとしたAGILEエージェントは, GPT-4エージェントより優れていることが示された。
我々のアブレーション研究は、エージェントの強いパフォーマンスを達成する上で、メモリ、ツール、コンサルテーション、リフレクション、強化学習の欠如を強調している。
データセットとコードはhttps://github.com/bytarnish/AGILE.comで入手できる。
関連論文リスト
- Automated test generation to evaluate tool-augmented LLMs as conversational AI agents [0.27309692684728615]
対話型AIエージェントを評価するテスト生成パイプラインを提案する。
当社のフレームワークでは,ユーザ定義の手順に基づく多種多様なテストを生成するためにLLMを使用している。
ツール拡張LDMは単一のインタラクションでよく機能するが、完全な会話を扱うのに苦労することが多い。
論文 参考訳(メタデータ) (2024-09-24T09:57:43Z) - Large Language Model-Based Agents for Software Engineering: A Survey [20.258244647363544]
近年のLarge Language Models(LLM)の進歩は、AIエージェント、すなわちLLMベースのエージェントの新しいパラダイムを形成している。
我々は106の論文を収集し、それらを2つの視点、すなわちSEとエージェントの観点から分類する。
さらに、この重要な領域におけるオープンな課題と今後の方向性についても論じる。
論文 参考訳(メタデータ) (2024-09-04T15:59:41Z) - AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - AgentLite: A Lightweight Library for Building and Advancing
Task-Oriented LLM Agent System [91.41155892086252]
LLMエージェントの研究を簡略化する新しいAIエージェントライブラリであるAgentLiteをオープンソースとして公開する。
AgentLiteは、タスクを分解するエージェントの機能を強化するために設計されたタスク指向フレームワークである。
我々は,その利便性と柔軟性を示すために,AgentLiteで開発された実用アプリケーションを紹介した。
論文 参考訳(メタデータ) (2024-02-23T06:25:20Z) - ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。
既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。
人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文 参考訳(メタデータ) (2024-02-21T06:04:53Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - ToolQA: A Dataset for LLM Question Answering with External Tools [14.408707186450899]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を示した。
彼らはまだ幻覚や弱い数値推論のような困難に悩まされている。
これらの課題を克服するために、LLMの質問応答能力を高めるために外部ツールを使用することができる。
論文 参考訳(メタデータ) (2023-06-23T05:43:28Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。