論文の概要: Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples
- arxiv url: http://arxiv.org/abs/2412.17288v1
- Date: Mon, 23 Dec 2024 05:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:51.003035
- Title: Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples
- Title(参考訳): エージェント学習のためのマルチモーダルグラウンドドプランニングと効率的なリプランニング
- Authors: Taewoong Kim, Byeonghwi Kim, Jonghyun Choi,
- Abstract要約: 本研究では,FLARE(Few-shot Language with Environmental Adaptive Replanning Embodied Agent)を提案する。
また,エージェントからの視覚的手がかりを用いて誤りを修正することを提案する。
提案手法では,視覚的手がかりによっていくつかの言語ペアを使用でき,最先端のアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 17.372378259072992
- License:
- Abstract: Learning a perception and reasoning module for robotic assistants to plan steps to perform complex tasks based on natural language instructions often requires large free-form language annotations, especially for short high-level instructions. To reduce the cost of annotation, large language models (LLMs) are used as a planner with few data. However, when elaborating the steps, even the state-of-the-art planner that uses LLMs mostly relies on linguistic common sense, often neglecting the status of the environment at command reception, resulting in inappropriate plans. To generate plans grounded in the environment, we propose FLARE (Few-shot Language with environmental Adaptive Replanning Embodied agent), which improves task planning using both language command and environmental perception. As language instructions often contain ambiguities or incorrect expressions, we additionally propose to correct the mistakes using visual cues from the agent. The proposed scheme allows us to use a few language pairs thanks to the visual cues and outperforms state-of-the-art approaches. Our code is available at https://github.com/snumprlab/flare.
- Abstract(参考訳): ロボットアシスタントの知覚と推論モジュールを学習して、自然言語命令に基づいて複雑なタスクを実行するための計画を立てるには、大きな自由形式の言語アノテーションを必要とすることが多い。
アノテーションのコストを削減するため、データが少ないプランナーとして大規模言語モデル(LLM)が使用される。
しかし、ステップを練る際には、LLMを使用する最先端のプランナーでさえ言語的な常識に依存しており、しばしばコマンド受信時の環境の状態を無視し、不適切な計画をもたらす。
本研究では,FLARE(Few-shot Language with Environmental Adaptive Replanning Embodied Agent)を提案する。
言語命令は曖昧さや不正確な表現を含むことが多いため、エージェントからの視覚的手がかりを用いて誤りを修正することも提案する。
提案手法では,視覚的手がかりによっていくつかの言語ペアを使用でき,最先端のアプローチよりも優れています。
私たちのコードはhttps://github.com/snumprlab/flare.comから入手可能です。
関連論文リスト
- Natural Language as Policies: Reasoning for Coordinate-Level Embodied Control with LLMs [7.746160514029531]
ロボットのタスク計画問題に対処するLLMによる実験結果を示す。
提案手法はタスクとシーンオブジェクトのテキスト記述を取得し,自然言語推論によるタスクプランニングを定式化する。
提案手法はマルチモーダル・プロンプト・シミュレーション・ベンチマークを用いて評価する。
論文 参考訳(メタデータ) (2024-03-20T17:58:12Z) - Simple Embodied Language Learning as a Byproduct of Meta-Reinforcement
Learning [56.07190845063208]
具体的強化学習(RL)エージェントは、非言語タスクから間接的に言語を学習できるか?
エージェントが特定のオフィスを見つけることを目標とするオフィスナビゲーション環境を設計し、異なる建物(タスク)でオフィスロケーションが異なる。
我々は、RLエージェントが言語を間接的に学習できることを発見した。現在のメタRLアルゴリズムで訓練されたエージェントは、ホールドアウトレイアウトと言語フレーズでフロアプランを読むことに成功している。
論文 参考訳(メタデータ) (2023-06-14T09:48:48Z) - PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning [77.03847056008598]
PlaSmaは、手続き的な知識と(制約のある)言語計画能力を持つ小さな言語モデルを実現するための、新しい2段階のアプローチである。
我々は,小言語モデルにおけるコモンセンス知識を高めるための記号的手続き的知識蒸留法と,より構造化された正確な推論を容易にする推論時アルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-05-31T00:55:40Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Distilling Script Knowledge from Large Language Models for Constrained
Language Planning [13.924046810622386]
日常生活において、人間はゴール指向のスクリプトの形でステップバイステップの指示に従うことで、アクションを計画することが多い。
従来、言語モデル(LM)を利用してステレオタイプ的活動の抽象的な目標を計画してきたが、より具体的な目標を多面的制約(multi-facet constraints)で検討した。
本稿では,制約付き言語計画の課題を初めて定義する。
本稿では,この課題における大規模言語モデル (LLM) の改善を目的とした過剰な代用フィルタ手法を提案し,新しい制約付き言語計画データセットであるCoScriptを抽出する。
論文 参考訳(メタデータ) (2023-05-09T08:19:32Z) - A Picture is Worth a Thousand Words: Language Models Plan from Pixels [53.85753597586226]
計画は, 実環境下で長時間の作業を行う人工エージェントの重要な機能である。
本研究では,事前学習型言語モデル(PLM)を用いて,具体的視覚環境におけるテキスト命令からのプランシーケンスを推論する。
論文 参考訳(メタデータ) (2023-03-16T02:02:18Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - From Abstractions to Grounded Languages for Robust Coordination of Task
Planning Robots [4.496989927037321]
コーディネーションに十分な説明性を有しつつ,最大限柔軟である言語の自動構築について検討する。
我々の言語は、任意のタスクの計画を「計画スケッチ」として表現し、それを実現する柔軟性を最大化しつつ、十分な詳細を伝達します。
論文 参考訳(メタデータ) (2019-05-01T22:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。