論文の概要: LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2405.17424v1
- Date: Mon, 27 May 2024 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 13:52:58.338600
- Title: LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence
- Title(参考訳): LARM:ロングホライゾン・エボディード・インテリジェンスのための大規模自動回帰モデル
- Authors: Zhuoling Li, Xiaogang Xu, Zhenhua Xu, SerNam Lim, Hengshuang Zhao,
- Abstract要約: エンボディエージェントのための大規模自己回帰モデル(LARM)を導入する。
LARMはテキストとマルチビューの両方を入力として使用し、後続のアクションを自動回帰的に予測する。
LARMは2段階の訓練体制を採用し、Minecraftで魔法の装置の収穫に成功した。
- 参考スコア(独自算出の注目度): 68.27280750612204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the need to interact with the real world, embodied agents are required to possess comprehensive prior knowledge, long-horizon planning capability, and a swift response speed. Despite recent large language model (LLM) based agents achieving promising performance, they still exhibit several limitations. For instance, the output of LLMs is a descriptive sentence, which is ambiguous when determining specific actions. To address these limitations, we introduce the large auto-regressive model (LARM). LARM leverages both text and multi-view images as input and predicts subsequent actions in an auto-regressive manner. To train LARM, we develop a novel data format named auto-regressive node transmission structure and assemble a corresponding dataset. Adopting a two-phase training regimen, LARM successfully harvests enchanted equipment in Minecraft, which demands significantly more complex decision-making chains than the highest achievements of prior best methods. Besides, the speed of LARM is 6.8x faster.
- Abstract(参考訳): 現実世界と対話する必要があるため、エンボディエージェントは包括的事前知識、長期計画能力、迅速な応答速度を持つ必要がある。
最近の大規模言語モデル(LLM)ベースのエージェントは有望なパフォーマンスを実現しているが、いくつかの制限がある。
例えば、LLMの出力は記述文であり、特定の動作を決定する際には曖昧である。
これらの制約に対処するため、我々はLARM(Big Auto-Regressive Model)を導入する。
LARMはテキストとマルチビューの両方を入力として利用し、その後のアクションを自動回帰的に予測する。
LARMを訓練するために、自動回帰ノード送信構造と呼ばれる新しいデータフォーマットを開発し、対応するデータセットを組み立てる。
LARMは二段階の訓練制度を採用し、Minecraftの機械装置の収穫に成功し、従来のベストメソッドの最高性能よりもはるかに複雑な意思決定チェーンを要求した。
さらに、LARMの速度は6.8倍速い。
関連論文リスト
- On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。
現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文 参考訳(メタデータ) (2025-01-31T23:42:53Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大規模言語モデルの開発は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。