Fugu-MT 論文翻訳(概要): LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

論文の概要: LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

arxiv url: http://arxiv.org/abs/2405.17424v2
Date: Wed, 05 Feb 2025 14:06:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.600793
Title: LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence
Title（参考訳）: LARM:ロングホライゾン・エボディード・インテリジェンスのための大規模自動回帰モデル
Authors: Zhuoling Li, Xiaogang Xu, Zhenhua Xu, SerNam Lim, Hengshuang Zhao,
Abstract要約: 最近のエンボディエージェントは、主に強化学習(RL)または大規模言語モデル(LLM)に基づいて構築されている。本研究では, 提案したレフェリーRLを, 開発した大規模自己回帰モデル(LARM)上で実施することにより, 欠点を回避しつつ, それらの利点を組み合わせる。具体的には、LARMは軽量なLLM(5Bパラメータよりも小さい)上に構築され、テキストではなく次のアクションを直接出力する。
参考スコア（独自算出の注目度）: 68.27280750612204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent embodied agents are primarily built based on reinforcement learning (RL) or large language models (LLMs). Among them, RL agents are efficient for deployment but only perform very few tasks. By contrast, giant LLM agents (often more than 1000B parameters) present strong generalization while demanding enormous computing resources. In this work, we combine their advantages while avoiding the drawbacks by conducting the proposed referee RL on our developed large auto-regressive model (LARM). Specifically, LARM is built upon a lightweight LLM (fewer than 5B parameters) and directly outputs the next action to execute rather than text. We mathematically reveal that classic RL feedbacks vanish in long-horizon embodied exploration and introduce a giant LLM based referee to handle this reward vanishment during training LARM. In this way, LARM learns to complete diverse open-world tasks without human intervention. Especially, LARM successfully harvests enchanted diamond equipment in Minecraft, which demands significantly longer decision-making chains than the highest achievements of prior best methods.
Abstract（参考訳）: 最近のエンボディエージェントは主に強化学習(RL)または大規模言語モデル(LLM)に基づいて構築されている。その中でも、RLエージェントはデプロイに効率的だが、非常に少ないタスクしか実行しない。対照的に、巨大なLLMエージェント(しばしば1000B以上のパラメータ)は、巨大な計算資源を必要としながら強力な一般化を示す。本研究では,提案するレフェリーRLを,開発した大規模自己回帰モデル(LARM)上で実施することにより,欠点を回避しつつ,それらの利点を組み合わせる。具体的には、LARMは軽量なLLM(5Bパラメータよりも小さい)上に構築され、テキストではなく次のアクションを直接出力する。長い水平探査で古典的なRLフィードバックがなくなることを数学的に明らかにし、LARMのトレーニング中にこの報酬を解消するために巨大なLLMベースのレフェリーを導入する。このようにして、LARMは人間の介入なしに多様なオープンワールドタスクを完成させることを学ぶ。特に、LARMはマインクラフトにおいて、従来のベストメソッドの最高の成果よりもはるかに長い意思決定チェーンを要求するダイヤモンド装置の収穫に成功した。

関連論文リスト

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文参考訳（メタデータ） (2025-05-23T16:51:54Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
Should You Use Your Large Language Model to Explore or Exploit? [55.562545113247666]
探索・探索トレードオフに直面した意思決定エージェントを支援するために,大規模言語モデルの能力を評価する。現在のLLMは、しばしば利用に苦労するが、小規模タスクのパフォーマンスを大幅に改善するために、コンテキスト内緩和が用いられる可能性がある。
論文参考訳（メタデータ） (2025-01-31T23:42:53Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-31T13:47:10Z)
Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文参考訳（メタデータ） (2024-10-25T06:08:59Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大きな言語モデル(LLM)は、人間のアノテーションに大きく依存することによる課題に直面することが多い。この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文参考訳（メタデータ） (2024-03-13T16:57:57Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding [11.832919020149891]
本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 textbfSmart textbfParallel textbfAuto-textbfCorrect dtextbfEcoding (SPACE)を提案する。
論文参考訳（メタデータ） (2024-02-19T03:39:10Z)
Reinforcement Learning from LLM Feedback to Counteract Goal Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文参考訳（メタデータ） (2024-01-14T01:09:48Z)
Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文参考訳（メタデータ） (2023-08-23T17:37:51Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
Capture Salient Historical Information: A Fast and Accurate Non-Autoregressive Model for Multi-turn Spoken Language Understanding [18.988599232838766]
既存の作業は、シングルターンスポケン言語理解タスクのための非自己回帰モデルの設計によって推論速度を向上する。我々はSHA-LRT(Layer-Refined Transformer)を用いた多ターンSLUのための新しいモデルを提案する。 SHAは、適切に設計された履歴アテンション機構によって、過去の発話と結果の両方から現在の対話の履歴情報をキャプチャする。
論文参考訳（メタデータ） (2022-06-24T10:45:32Z)
An Effective Non-Autoregressive Model for Spoken Language Understanding [15.99246711701726]
本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。 SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。 2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
論文参考訳（メタデータ） (2021-08-16T10:26:57Z)
Scalable Multi-Agent Inverse Reinforcement Learning via Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-24T20:30:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。