論文の概要: Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following
- arxiv url: http://arxiv.org/abs/2011.07384v1
- Date: Sat, 14 Nov 2020 20:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:12:08.224923
- Title: Few-shot Object Grounding and Mapping for Natural Language Robot
Instruction Following
- Title(参考訳): 自然言語ロボット学習のためのマイナショット物体の接地とマッピング
- Authors: Valts Blukis, Ross A. Knepper, Yoav Artzi
- Abstract要約: 本稿では,ロボットのポリシーを学習して自然言語の指示に従うという課題について考察する。
本稿では,拡張現実データから学習した数発の言語条件オブジェクトグラウンドティング手法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
- 参考スコア(独自算出の注目度): 15.896892723068932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning a robot policy to follow natural language
instructions that can be easily extended to reason about new objects. We
introduce a few-shot language-conditioned object grounding method trained from
augmented reality data that uses exemplars to identify objects and align them
to their mentions in instructions. We present a learned map representation that
encodes object locations and their instructed use, and construct it from our
few-shot grounding output. We integrate this mapping approach into an
instruction-following policy, thereby allowing it to reason about previously
unseen objects at test-time by simply adding exemplars. We evaluate on the task
of learning to map raw observations and instructions to continuous control of a
physical quadcopter. Our approach significantly outperforms the prior state of
the art in the presence of new objects, even when the prior approach observes
all objects during training.
- Abstract(参考訳): そこで本研究では,自然言語命令に従うロボットの方針を学習し,新たな対象を判断するために容易に拡張できる課題について検討する。
そこで本研究では,拡張現実データから学習した数発の言語条件付きオブジェクトの接地法を提案する。
オブジェクトの位置とその指示された使用を符号化した学習地図表現を提示し、この数発のグラウンドアウトプットから構築する。
このマッピングアプローチを命令追従ポリシに統合することで,既存の未確認オブジェクトをテスト時に推論することが可能になる。
生の観測と指示を物理的クワッドコプターの連続制御にマッピングする学習のタスクを評価する。
我々の手法は、訓練中にすべての物体を観察した場合でも、新しい物体の存在下での先行技術よりも著しく優れています。
関連論文リスト
- Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Few-Shot In-Context Imitation Learning via Implicit Graph Alignment [15.215659641228655]
オブジェクトのグラフ表現間の条件付きアライメント問題として模倣学習を定式化する。
この条件付けにより、ロボットがデモ直後に新しいオブジェクトのセット上でタスクを実行できる、コンテキスト内学習が可能となることを示す。
論文 参考訳(メタデータ) (2023-10-18T18:26:01Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Learning visual policies for building 3D shape categories [130.7718618259183]
この領域における以前の作業は、しばしば既知のプリミティブの集合から特定のオブジェクトのインスタンスを組み立てる。
私たちは、同じカテゴリの他のインスタンスを組み立てるための視覚ポリシーを学びます。
我々の視覚アセンブリポリシーは、実際の画像なしで訓練され、実際のロボットで評価した場合、95%の成功率に達する。
論文 参考訳(メタデータ) (2020-04-15T17:29:10Z) - Learning Object Permanence from Video [46.34427538905761]
本稿では,データからオブジェクトパーマンスを学習するためのセットアップを紹介する。
本稿では,この学習問題を,対象が可視である4つの構成要素,(2)隠蔽,(3)他の対象が包含,(4)包含対象が担持する4つの要素に分解すべき理由を説明する。
そして、これらの4つのシナリオの下でオブジェクトの位置を予測することを学習する統合されたディープアーキテクチャを提示します。
論文 参考訳(メタデータ) (2020-03-23T18:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。