論文の概要: Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2302.06072v2
- Date: Thu, 14 Mar 2024 08:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 03:12:58.562228
- Title: Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation
- Title(参考訳): Demystifying Vision-Language Navigationのための行動的原子概念学習
- Authors: Bingqian Lin, Yi Zhu, Xiaodan Liang, Liang Lin, Jianzhuang Liu,
- Abstract要約: 行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
- 参考スコア(独自算出の注目度): 124.07372905781696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) is a challenging task which requires an agent to align complex visual observations to language instructions to reach the goal position. Most existing VLN agents directly learn to align the raw directional features and visual features trained using one-hot labels to linguistic instruction features. However, the big semantic gap among these multi-modal inputs makes the alignment difficult and therefore limits the navigation performance. In this paper, we propose Actional Atomic-Concept Learning (AACL), which maps visual observations to actional atomic concepts for facilitating the alignment. Specifically, an actional atomic concept is a natural language phrase containing an atomic action and an object, e.g., ``go up stairs''. These actional atomic concepts, which serve as the bridge between observations and instructions, can effectively mitigate the semantic gap and simplify the alignment. AACL contains three core components: 1) a concept mapping module to map the observations to the actional atomic concept representations through the VLN environment and the recently proposed Contrastive Language-Image Pretraining (CLIP) model, 2) a concept refining adapter to encourage more instruction-oriented object concept extraction by re-ranking the predicted object concepts by CLIP, and 3) an observation co-embedding module which utilizes concept representations to regularize the observation representations. Our AACL establishes new state-of-the-art results on both fine-grained (R2R) and high-level (REVERIE and R2R-Last) VLN benchmarks. Moreover, the visualization shows that AACL significantly improves the interpretability in action decision.
- Abstract(参考訳): VLN(Vision-Language Navigation)は、エージェントが複雑な視覚的観察を言語命令に合わせることで目標に到達させる、という課題である。
既存のほとんどのVLNエージェントは、ワンホットラベルを用いて訓練された生の方向特徴と視覚的特徴を直接言語指導特徴に合わせるように学習する。
しかし、これらのマルチモーダル入力間の大きな意味的ギャップにより、アライメントが難しくなり、ナビゲーション性能が制限される。
本稿では,行動的原子概念学習(AACL)を提案し,視覚的観察を行動的原子概念にマッピングしてアライメントを容易にする。
具体的には、アクション・アトミックの概念は、アトミック・アクションとオブジェクト、eg , ``go up steps''を含む自然言語句である。
これらの行動原子の概念は、観測と指示の間の橋渡しとして機能し、意味的ギャップを効果的に緩和し、アライメントを単純化することができる。
AACLは3つのコアコンポーネントを含んでいる。
1) VLN環境と最近提案されたContrastive Language- Image Pretraining (CLIP)モデルを通して, 観測結果を行動原子概念表現にマッピングする概念マッピングモジュール。
2)CLIPによる予測対象概念の再ランク付けにより、より命令指向のオブジェクト概念抽出を促進するための概念修正アダプタ。
3)観察表現を正規化するために概念表現を利用する観察共埋め込みモジュール。
我々のAACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立します。
さらに、AACLは行動決定における解釈可能性を大幅に改善することを示す。
関連論文リスト
- CL-HOI: Cross-Level Human-Object Interaction Distillation from Vision Large Language Models [10.62320998365966]
視覚言語モデル(VLLM)は、本質的には画像レベルでの相互作用を認識・推論できるが、計算的に重く、インスタンスレベルのHOI検出には設計されていない。
手動のアノテーションを必要とせずに,VLLMのイメージレベルの理解からインスタンスレベルのHOIを蒸留するクロスレベルHOI蒸留(CL-HOI)フレームワークを提案する。
本手法は,視覚情報から言語情報への変換を行う文脈蒸留と,対話認知ネットワーク(ICN)が空間的,視覚的,文脈的関係を推論する相互作用蒸留の2段階を含む。
論文 参考訳(メタデータ) (2024-10-21T05:51:51Z) - Narrowing the Gap between Vision and Action in Navigation [28.753809306008996]
本稿では,高レベル動作予測を併用した低レベル動作デコーダを提案する。
我々のエージェントは、ハイレベルアクションとローレベルアクションの両方の強力なベースラインと比較して、ナビゲーション性能の指標を改善することができる。
論文 参考訳(メタデータ) (2024-08-19T20:09:56Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z) - Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following [101.55727845195969]
本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。
ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。
ECLは完全に透明で、長期計画において段階的に解釈可能である。
論文 参考訳(メタデータ) (2023-04-07T17:59:34Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z) - Contrastive Instruction-Trajectory Learning for Vision-Language
Navigation [66.16980504844233]
視覚言語ナビゲーション(VLN)タスクでは、エージェントが自然言語の指示でターゲットに到達する必要がある。
先行研究は、命令-軌道対間の類似点と相違点を識別できず、サブ命令の時間的連続性を無視する。
本稿では、類似したデータサンプル間の分散と、異なるデータサンプル間の分散を探索し、ロバストなナビゲーションのための独特な表現を学習するContrastive Instruction-Trajectory Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:32:52Z) - Neighbor-view Enhanced Model for Vision and Language Navigation [78.90859474564787]
視覚と言語ナビゲーション(VLN)では、エージェントが自然言語の指示に従うことによって、ターゲットの場所へナビゲートする必要がある。
本研究では,隣接するビューから視覚的コンテキストを適応的に組み込むマルチモジュールNeighbor-View Enhanced Model (NvEM)を提案する。
論文 参考訳(メタデータ) (2021-07-15T09:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。