Fugu-MT 論文翻訳(概要): Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following

論文の概要: Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following

arxiv url: http://arxiv.org/abs/2211.03267v2
Date: Tue, 12 Mar 2024 09:01:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 02:35:21.207485
Title: Prompter: Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following
Title（参考訳）: prompter: データ効率の良いエンボディドインストラクションのための大規模言語モデルプロンプトの利用
Authors: Yuki Inoue and Hiroki Ohashi
Abstract要約: Embodied Instruction 自律的な移動操作ロボットは、長期のタスクを達成するためにどのように制御されるべきかの研究に続く。デプロイされたロボットの物理的制約をモジュール設計に組み込むことは非常に効果的であることを示す。私たちの設計では、同じモジュールシステムが、最小限の修正で、異なる構成のロボット間で動作できるようにしています。
参考スコア（独自算出の注目度）: 4.532517021515834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied Instruction Following (EIF) studies how autonomous mobile manipulation robots should be controlled to accomplish long-horizon tasks described by natural language instructions. While much research on EIF is conducted in simulators, the ultimate goal of the field is to deploy the agents in real life. This is one of the reasons why recent methods have moved away from training models end-to-end and take modular approaches, which do not need the costly expert operation data. However, as it is still in the early days of importing modular ideas to EIF, a search for modules effective in the EIF task is still far from a conclusion. In this paper, we propose to extend the modular design using knowledge obtained from two external sources. First, we show that embedding the physical constraints of the deployed robots into the module design is highly effective. Our design also allows the same modular system to work across robots of different configurations with minimal modifications. Second, we show that the landmark-based object search, previously implemented by a trained model requiring a dedicated set of data, can be replaced by an implementation that prompts pretrained large language models for landmark-object relationships, eliminating the need for collecting dedicated training data. Our proposed Prompter achieves 41.53\% and 45.32\% on the ALFRED benchmark with high-level instructions only and step-by-step instructions, respectively, significantly outperforming the previous state of the art by 5.46\% and 9.91\%.
Abstract（参考訳）: embodied instruction following (eif)は、自然言語命令によって記述される長いホリゾンタスクを達成するために、自律的な移動操作ロボットをどのように制御すべきかを研究する。 EIFに関する多くの研究はシミュレーターで行われているが、最終的な目標はエージェントを実生活に展開することである。これは、最近の手法がエンドツーエンドのトレーニングモデルから離れ、コストのかかる専門家の操作データを必要としないモジュラーアプローチに移行した理由の1つです。しかし、まだモジュール化されたアイデアをEIFにインポートする初期段階であるため、EIFタスクに有効なモジュールを探すことは、まだ結論には至っていない。本稿では,2つの外部情報源から得られた知識を用いてモジュール設計を拡張することを提案する。まず,ロボットの物理的制約をモジュール設計に組み込むことが極めて効果的であることを示す。私たちの設計では、同じモジュールシステムを、最小限の修正で、さまざまな構成のロボットで動作させることも可能です。第2に,事前学習された大規模言語モデルにランドマークとオブジェクトの関係性を求める実装に置き換えることで,専用トレーニングデータの収集を不要にできることを示す。提案手法では,高レベル命令のみとステップバイステップ命令でそれぞれ41.53\%と45.32\%を達成し,従来の5.46\%と9.91\%を大きく上回った。

関連論文リスト

AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文参考訳（メタデータ） (2026-01-05T09:17:28Z)
λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文参考訳（メタデータ） (2024-11-28T19:31:50Z)
AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models [6.637952061378054]
本稿では,ロボットの強化学習ポリシーをトレーニングし,展開するためのエンドツーエンドフレームワークを提案する。このフレームワークは、3つの相互接続モジュールからなる: LLM誘導報酬関数設計モジュール、先行作業を活用するRLトレーニングモジュール、およびsim-to-real同型評価モジュール。本稿では,これらのモジュールの構築,従来のアプローチに対するアドバンテージを詳述するとともに,二足歩行ロボットの制御戦略を自律的に開発・洗練するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2024-09-13T15:15:45Z)
Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文参考訳（メタデータ） (2024-06-14T12:52:42Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:57Z)
Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文参考訳（メタデータ） (2023-05-18T17:59:49Z)
Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文参考訳（メタデータ） (2023-02-22T18:11:25Z)
Modular Framework for Visuomotor Language Grounding [57.93906820466519]
自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
論文参考訳（メタデータ） (2021-09-05T20:11:53Z)
Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems [47.937191088981436]
大規模事前訓練型言語モデルでは、ToDで数発の学習を行う上で有望な結果が示されている。本稿では,より強力な学生モデルを訓練するために,最も自信のないラベル付きデータを反復的にラベル付けする自己学習手法を提案する。目的分類,ダイアログ状態追跡,ダイアログアクト予測,応答選択など,ToDの4つの下流タスクに関する実験と分析を行った。
論文参考訳（メタデータ） (2021-08-28T07:22:06Z)
A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文参考訳（メタデータ） (2020-02-14T10:24:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。