論文の概要: Object-and-Action Aware Model for Visual Language Navigation
- arxiv url: http://arxiv.org/abs/2007.14626v1
- Date: Wed, 29 Jul 2020 06:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:35:30.024614
- Title: Object-and-Action Aware Model for Visual Language Navigation
- Title(参考訳): 視覚言語ナビゲーションのためのオブジェクト・アンド・アクション認識モデル
- Authors: Yuankai Qi, Zizheng Pan, Shengping Zhang, Anton van den Hengel, Qi Wu
- Abstract要約: VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
- 参考スコア(独自算出の注目度): 70.33142095637515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) is unique in that it requires turning
relatively general natural-language instructions into robot agent actions, on
the basis of the visible environment. This requires to extract value from two
very different types of natural-language information. The first is object
description (e.g., 'table', 'door'), each presenting as a tip for the agent to
determine the next action by finding the item visible in the environment, and
the second is action specification (e.g., 'go straight', 'turn left') which
allows the robot to directly predict the next movements without relying on
visual perceptions. However, most existing methods pay few attention to
distinguish these information from each other during instruction encoding and
mix together the matching between textual object/action encoding and visual
perception/orientation features of candidate viewpoints. In this paper, we
propose an Object-and-Action Aware Model (OAAM) that processes these two
different forms of natural language based instruction separately. This enables
each process to match object-centered/action-centered instruction to their own
counterpart visual perception/action orientation flexibly. However, one
side-issue caused by above solution is that an object mentioned in instructions
may be observed in the direction of two or more candidate viewpoints, thus the
OAAM may not predict the viewpoint on the shortest path as the next action. To
handle this problem, we design a simple but effective path loss to penalize
trajectories deviating from the ground truth path. Experimental results
demonstrate the effectiveness of the proposed model and path loss, and the
superiority of their combination with a 50% SPL score on the R2R dataset and a
40% CLS score on the R4R dataset in unseen environments, outperforming the
previous state-of-the-art.
- Abstract(参考訳): 視覚・言語ナビゲーション(vln)は、比較的一般的な自然言語命令を可視環境に基づいてロボットエージェントアクションに変換する必要があるという点でユニークなものである。
これは、非常に異なる2種類の自然言語情報から値を取り出す必要がある。
1つはオブジェクト記述(例:'table'、'door')で、それぞれがエージェントが環境に見える項目を見つけて次のアクションを決定するためのヒントとして提示され、もう1つはアクション仕様(例:'go straight'、'turn left')であり、ロボットは視覚の知覚に頼らずに次の動きを直接予測することができる。
しかし、既存の手法のほとんどは、命令エンコーディング中にこれらの情報を区別するためにほとんど注意を払っておらず、テキストオブジェクト/アクションエンコーディングと候補視点の視覚知覚/方向特徴のマッチングを混合している。
本稿では,これら2種類の自然言語を個別に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令と、対応する視覚知覚/アクション指向を柔軟に一致させることができる。
しかし、上述の解が原因の1つの側面は、指示書に記載された物体が2つ以上の候補視点の方向に観察できるため、OAAMは次の行動として最短経路の視点を予測できないということである。
この問題に対処するために,地上の真理経路から逸脱した軌道をペナルティ化する,単純かつ効果的な経路損失を設計する。
実験の結果,提案モデルの有効性と経路損失,R2Rデータセットの50% SPLスコアとR4Rデータセットの40% CLSスコアとの組合せが,従来よりも優れていることが示された。
関連論文リスト
- SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Look Wide and Interpret Twice: Improving Performance on Interactive
Instruction-following Tasks [29.671268927569063]
近年の研究では、タスクのためのよく設計されたデータセットであるALFREDを用いてこの問題に対処している。
本稿では,従来の手法を大きなマージンで上回る新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T16:06:09Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。