Fugu-MT 論文翻訳(概要): Large Language Models as Generalizable Policies for Embodied Tasks

論文の概要: Large Language Models as Generalizable Policies for Embodied Tasks

arxiv url: http://arxiv.org/abs/2310.17722v2
Date: Tue, 16 Apr 2024 17:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 01:50:05.252417
Title: Large Language Models as Generalizable Policies for Embodied Tasks
Title（参考訳）: エンボディードタスクに対する一般化可能なポリシとしての大規模言語モデル
Authors: Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev,
Abstract要約: 大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
参考スコア（独自算出の注目度）: 50.870491905776305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.
Abstract（参考訳）: 大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーに適応可能であることを示す。我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。強化学習を用いてLLaRPを訓練し,環境相互作用のみを通して学習・行動する。 LLaRPはタスク命令の複雑なパラフレーズに対して堅牢であり、新しい最適な振る舞いを必要とする新しいタスクに一般化可能であることを示す。特に1,000の未確認タスクでは、42%の成功率、1.7倍の成功率を達成する。最後に、言語条件付き、膨大なマルチタスク、具体化されたAI問題を研究するコミュニティを支援するために、新しいベンチマークであるLanguage Rearrangementをリリースしました。未確認言語再配列命令におけるLLaRPの動画例はhttps://llm-rl.github.io.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s /s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/

関連論文リスト

Natural Language Actor-Critic: Scalable Off-Policy Learning in Language Space [57.868527884634894]
自然言語アクター・クライブ(英: Natural Language Actor-Critic)は、スカラー値ではなく自然言語を用いてポリシーを訓練する新しいアクター批判アルゴリズムである。 NLACが既存のトレーニング手法より優れていることを示すために、推論、Webブラウジング、ツールユースを対話タスクと組み合わせた結果を示す。
論文参考訳（メタデータ） (2025-12-04T09:21:44Z)
PARL: Prompt-based Agents for Reinforcement Learning [8.465228064780742]
大規模言語モデル(LLM)は、自然言語で表現されたタスクに対して高い性能を示す。我々は、グリッド世界の位置を解釈するなど、構造化された非言語的推論について研究する。本稿では,LLM を RL エージェントとして活用する PARL (Prompt-based Agent for Reinforcement Learning) を提案する。
論文参考訳（メタデータ） (2025-10-24T10:04:23Z)
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文参考訳（メタデータ） (2024-09-24T12:24:07Z)
Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文参考訳（メタデータ） (2024-03-20T17:58:12Z)
Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文参考訳（メタデータ） (2024-03-09T21:36:13Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文参考訳（メタデータ） (2023-10-04T17:10:23Z)
Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。 In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文参考訳（メタデータ） (2023-05-16T03:38:06Z)
Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文参考訳（メタデータ） (2022-10-04T21:16:48Z)
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文参考訳（メタデータ） (2022-01-18T18:59:45Z)
Ask Your Humans: Using Human Instructions to Improve Generalization in Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。人間のデモは、最も複雑なタスクを解決するのに役立ちます。また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文参考訳（メタデータ） (2020-11-01T14:39:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。