論文の概要: LLaMA Rider: Spurring Large Language Models to Explore the Open World
- arxiv url: http://arxiv.org/abs/2310.08922v1
- Date: Fri, 13 Oct 2023 07:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 13:52:21.196907
- Title: LLaMA Rider: Spurring Large Language Models to Explore the Open World
- Title(参考訳): LLaMA Rider: 大規模言語モデルによるオープンワールドの探索
- Authors: Yicheng Feng, Yuxuan Wang, Jiazheng Liu, Sipeng Zheng, and Zongqing Lu
- Abstract要約: 環境知識を継続的に獲得し、オープンな世界で適応する大規模言語モデルの能力は、いまだに不確実である。
オープンな世界を探索し,経験を収集し,課題解決能力の向上を学ぶために,LLMを刺激するアプローチを提案する。
オープンエンドのサンドボックス世界であるMinecraftでの評価により,LLaMA-Rider による環境探索における LLM の効率向上が実証された。
- 参考スコア(独自算出の注目度): 36.261626047323695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, various studies have leveraged Large Language Models (LLMs) to help
decision-making and planning in environments, and try to align the LLMs'
knowledge with the world conditions. Nonetheless, the capacity of LLMs to
continuously acquire environmental knowledge and adapt in an open world remains
uncertain. In this paper, we propose an approach to spur LLMs to explore the
open world, gather experiences, and learn to improve their task-solving
capabilities. In this approach, a multi-round feedback-revision mechanism is
utilized to encourage LLMs to actively select appropriate revision actions
guided by feedback information from the environment. This facilitates
exploration and enhances the model's performance. Besides, we integrate
sub-task relabeling to assist LLMs in maintaining consistency in sub-task
planning and help the model learn the combinatorial nature between tasks,
enabling it to complete a wider range of tasks through training based on the
acquired exploration experiences. By evaluation in Minecraft, an open-ended
sandbox world, we demonstrate that our approach LLaMA-Rider enhances the
efficiency of the LLM in exploring the environment, and effectively improves
the LLM's ability to accomplish more tasks through fine-tuning with merely 1.3k
instances of collected data, showing minimal training costs compared to the
baseline using reinforcement learning.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を活用し,環境における意思決定と計画を支援し,LLMの知識と世界環境との整合を図る研究が行われている。
それでも、LLMが環境知識を継続的に獲得し、オープンな世界で適応する能力は、まだ不明である。
本稿では,オープンワールドを探索し,経験を収集し,課題解決能力の向上を学ぶために,LLMを刺激するアプローチを提案する。
このアプローチでは,複数ラウンドのフィードバック修正機構を利用して,環境からのフィードバック情報によって導かれる適切なリビジョンアクションをLCMに積極的に選択する。
これにより探索が容易になり、モデルの性能が向上する。
さらに,サブタスク・ラベリングを統合して,サブタスク計画における一貫性の維持を支援するとともに,モデルがタスク間の組合せの性質を学習し,取得した探索経験に基づくトレーニングを通じて幅広いタスクを完了できるようにする。
オープンエンドのサンドボックスの世界であるMinecraftでの評価により,LLaMA-Riderは環境探索におけるLLMの効率を向上し,収集したデータの1.3kのインスタンスを微調整することで,LLMがより多くのタスクをこなす能力を効果的に向上することを示した。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models [33.504700578933424]
低サンプリング効率は強化学習(RL)の持続的課題である
環境の背景知識を抽出するために,大規模言語モデルを利用するフレームワークを導入する。
実験により, 下流タスクのスペクトルにおいて, サンプル効率が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-07-04T14:33:47Z) - A Reality check of the benefits of LLM in business [1.9181612035055007]
大規模言語モデル(LLM)は、言語理解および生成タスクにおいて顕著なパフォーマンスを達成した。
ビジネスプロセスにおけるLCMの有用性と準備性について概説する。
論文 参考訳(メタデータ) (2024-06-09T02:36:00Z) - Can LLMs Solve longer Math Word Problems Better? [47.227621867242]
大規模言語モデル(LLM)の能力評価にはMWP(Math Word Problems)が不可欠である
この研究は、文脈長一般化可能性(CoLeG)の探索の先駆者である。
これらの問題を解決する上で, LLMの有効性とレジリエンスを評価するために, 2つの新しい指標が提案されている。
論文 参考訳(メタデータ) (2024-05-23T17:13:50Z) - Reinforcement Learning Problem Solving with Large Language Models [0.0]
大規模言語モデル (LLM) には膨大な量の世界知識があり、自然言語処理 (NLP) タスクの性能向上のために様々な分野に応用できるようになっている。
これはまた、人間とAIシステム間の会話に基づく対話による、意図した問題を解決するための、よりアクセスしやすいパラダイムを促進する。
研究科学者」と「レガリー・マター・インテーク」の2つの詳細なケーススタディを通して、我々のアプローチの実践性を示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:08Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。