論文の概要: Prompter: Utilizing Large Language Model Prompting for a Data Efficient
Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2211.03267v1
- Date: Mon, 7 Nov 2022 02:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 18:32:24.704712
- Title: Prompter: Utilizing Large Language Model Prompting for a Data Efficient
Embodied Instruction Following
- Title(参考訳): prompter: データ効率の良いエンボディドインストラクションのための大規模言語モデルプロンプトの利用
- Authors: Yuki Inoue and Hiroki Ohashi
- Abstract要約: FILM++は、余分なデータを必要としない修正を加えて、既存のFILMを拡張している。
PrompterはFILM++のセマンティック検索モジュールを言語モデルプロンプトで置き換える。
Prompter は ALFRED ベンチマークで 42.64% と 45.72% を達成する。
- 参考スコア(独自算出の注目度): 5.977483447975081
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Instruction Following (EIF) studies how mobile manipulator robots
should be controlled to accomplish long-horizon tasks specified by natural
language instructions. While most research on EIF are conducted in simulators,
the ultimate goal of the field is to deploy the agents in real life. As such,
it is important to minimize the data cost required for training an agent, to
help the transition from sim to real. However, many studies only focus on the
performance and overlook the data cost -- modules that require separate
training on extra data are often introduced without a consideration on
deployability. In this work, we propose FILM++ which extends the existing work
FILM with modifications that do not require extra data. While all data-driven
modules are kept constant, FILM++ more than doubles FILM's performance.
Furthermore, we propose Prompter, which replaces FILM++'s semantic search
module with language model prompting. Unlike FILM++'s implementation that
requires training on extra sets of data, no training is needed for our
prompting based implementation while achieving better or at least comparable
performance. Prompter achieves 42.64% and 45.72% on the ALFRED benchmark with
high-level instructions only and with step-by-step instructions, respectively,
outperforming the previous state of the art by 6.57% and 10.31%.
- Abstract(参考訳): embodied instruction following (eif)は、自然言語命令で指定される長時間ホリゾンタスクを達成するために、モバイルマニピュレータロボットをどのように制御すべきかを研究する。
EIFに関するほとんどの研究はシミュレーターで行われているが、最終的な目標はエージェントを現実に展開することである。
したがって、エージェントのトレーニングに必要なデータコストを最小限に抑え、simからrealへの移行を支援することが重要です。
しかしながら、多くの研究は、パフォーマンスのみに注目し、データコストを見落としている -- 追加データに対する個別のトレーニングを必要とするモジュールは、デプロイ性に配慮せずに導入されることが多い。
本研究では,既存のワークフィルムに余分なデータを必要としない修正を加えた film++ を提案する。
データ駆動モジュールはすべて一定だが、FILM++はFILMのパフォーマンスを倍増させる。
さらに,FILM++のセマンティック検索モジュールを言語モデルプロンプトに置き換えたPrompterを提案する。
追加のデータセットのトレーニングを必要とするFILM++の実装とは異なり、プロンプトベースの実装ではトレーニングは必要ありません。
Prompter は ALFRED ベンチマークで 42.64% と 45.72% を達成し、高いレベルの命令のみとステップバイステップの命令で、それぞれ6.57% と 10.31% を上回っている。
関連論文リスト
- AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models [6.637952061378054]
本稿では,ロボットの強化学習ポリシーをトレーニングし,展開するためのエンドツーエンドフレームワークを提案する。
このフレームワークは、3つの相互接続モジュールからなる: LLM誘導報酬関数設計モジュール、先行作業を活用するRLトレーニングモジュール、およびsim-to-real同型評価モジュール。
本稿では,これらのモジュールの構築,従来のアプローチに対するアドバンテージを詳述するとともに,二足歩行ロボットの制御戦略を自律的に開発・洗練するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2024-09-13T15:15:45Z) - Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Modular Framework for Visuomotor Language Grounding [57.93906820466519]
自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。
本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
論文 参考訳(メタデータ) (2021-09-05T20:11:53Z) - Self-training Improves Pre-training for Few-shot Learning in
Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。
本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。
目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文 参考訳(メタデータ) (2021-08-28T07:22:06Z) - A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。
提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-02-14T10:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。