論文の概要: ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2011.07660v1
- Date: Sun, 15 Nov 2020 23:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 06:48:30.969750
- Title: ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments
- Title(参考訳): ArraMon: 動的環境における共同ナビゲーションアセンブリ命令解釈タスク
- Authors: Hyounghun Kim, Abhay Zala, Graham Burri, Hao Tan, Mohit Bansal
- Abstract要約: 我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
- 参考スコア(独自算出の注目度): 85.81157224163876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For embodied agents, navigation is an important ability but not an isolated
goal. Agents are also expected to perform specific tasks after reaching the
target location, such as picking up objects and assembling them into a
particular arrangement. We combine Vision-and-Language Navigation, assembling
of collected objects, and object referring expression comprehension, to create
a novel joint navigation-and-assembly task, named ArraMon. During this task,
the agent (similar to a PokeMON GO player) is asked to find and collect
different target objects one-by-one by navigating based on natural language
instructions in a complex, realistic outdoor environment, but then also ARRAnge
the collected objects part-by-part in an egocentric grid-layout environment. To
support this task, we implement a 3D dynamic environment simulator and collect
a dataset (in English; and also extended to Hindi) with human-written
navigation and assembling instructions, and the corresponding ground truth
trajectories. We also filter the collected instructions via a verification
stage, leading to a total of 7.7K task instances (30.8K instructions and
paths). We present results for several baseline models (integrated and biased)
and metrics (nDTW, CTC, rPOD, and PTC), and the large model-human performance
gap demonstrates that our task is challenging and presents a wide scope for
future work. Our dataset, simulator, and code are publicly available at:
https://arramonunc.github.io
- Abstract(参考訳): 実施エージェントにとって、ナビゲーションは重要な能力であるが、孤立した目標ではない。
エージェントは、オブジェクトを拾い上げ、特定のアレンジメントに組み立てるなど、ターゲットの場所に到達すると、特定のタスクを実行することも期待されている。
視覚と言語によるナビゲーション,収集されたオブジェクトの組み立て,オブジェクト参照表現の理解を組み合わせることで,arramonと呼ばれる新しいジョイントナビゲーション・アンド・アセンブリタスクを作成する。
この作業中、エージェント(ポケモンGOプレイヤーに似た)は、複雑で現実的な屋外環境において自然言語命令に基づいてナビゲートすることで、異なるターゲットオブジェクトを1つずつ発見・収集するように求められ、さらに、収集したオブジェクトをエゴセントリックグリッドレイアウト環境で部分的にARRAngeする。
この課題を支援するために,3次元動的環境シミュレータを実装し,人手によるナビゲーションと組立命令によるデータセット(英語,ヒンディー語にも拡張)とそれに対応する地上真実軌跡を収集する。
また、収集した命令を検証段階を通じてフィルタリングし、合計7.7Kのタスクインスタンス(30.8Kの命令とパス)を生成する。
我々は、いくつかのベースラインモデル(統合およびバイアス)とメトリクス(ndtw、ctc、rpod、ptc)について結果を示し、大きなモデル・ヒューマンパフォーマンスギャップは、我々の課題が困難であることを示し、今後の作業に幅広いスコープを提供する。
私たちのデータセット、シミュレータ、コードは、https://arramonunc.github.ioで公開されています。
関連論文リスト
- Personalized Instance-based Navigation Toward User-Specific Objects in Realistic Environments [44.6372390798904]
本稿では,特定の個人オブジェクトの位置と到達を具体化するタスクデノマイトされたパーソナライズされたパーソナライズドインスタンスベースのナビゲーション(PIN)を提案する。
各エピソードにおいて、ターゲットオブジェクトは、中性背景上の視覚的参照画像のセットと手動による注釈付きテキスト記述の2つのモードを使用してエージェントに提示される。
論文 参考訳(メタデータ) (2024-10-23T18:01:09Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation [10.006058028927907]
VLN(Vision-and-Language Navigation)は、人間の自然言語で写実的な環境を移動させるロボットを必要とする課題である。
近年の研究では,環境の意味的な空間地図表現を構築することで,この課題に対処することを目指している。
本稿では,インスタンスレベルおよび属性レベルのセマンティックマッピングをロボットに提供するために,インスタンス対応のビジュアル言語マップ(IVLMap)を提案する。
論文 参考訳(メタデータ) (2024-03-28T11:52:42Z) - Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Improving Cross-Modal Alignment in Vision Language Navigation via
Syntactic Information [83.62098382773266]
ビジョン言語ナビゲーションは、エージェントが自然言語の指示に基づいて3D環境をナビゲートする必要があるタスクです。
命令と現在の視覚シーンの整合性を高めるために,依存木から派生した構文情報を利用したナビゲーションエージェントを提案する。
このエージェントは3つの言語による命令を含むroom-across-roomデータセットの新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-19T19:18:41Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。
このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。
ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文 参考訳(メタデータ) (2021-01-09T21:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。