論文の概要: Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2504.16516v2
- Date: Thu, 24 Apr 2025 19:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.053248
- Title: Think Hierarchically, Act Dynamically: Hierarchical Multi-modal Fusion and Reasoning for Vision-and-Language Navigation
- Title(参考訳): 階層的, 動的に考える: 視覚・言語ナビゲーションのための階層的マルチモーダル融合と推論
- Authors: Junrong Yue, Yifan Zhang, Chuan Qin, Bo Li, Xiaomin Lie, Xinlei Yu, Wenxin Zhang, Zhendong Zhao,
- Abstract要約: Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。
本稿では,視覚的観察,言語指導,ナビゲーション履歴の推論能力を高めるため,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
- 参考スコア(独自算出の注目度): 11.23342183103283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Navigation (VLN) aims to enable embodied agents to follow natural language instructions and reach target locations in real-world environments. While prior methods often rely on either global scene representations or object-level features, these approaches are insufficient for capturing the complex interactions across modalities required for accurate navigation. In this paper, we propose a Multi-level Fusion and Reasoning Architecture (MFRA) to enhance the agent's ability to reason over visual observations, language instructions and navigation history. Specifically, MFRA introduces a hierarchical fusion mechanism that aggregates multi-level features-ranging from low-level visual cues to high-level semantic concepts-across multiple modalities. We further design a reasoning module that leverages fused representations to infer navigation actions through instruction-guided attention and dynamic context integration. By selectively capturing and combining relevant visual, linguistic, and temporal signals, MFRA improves decision-making accuracy in complex navigation scenarios. Extensive experiments on benchmark VLN datasets including REVERIE, R2R, and SOON demonstrate that MFRA achieves superior performance compared to state-of-the-art methods, validating the effectiveness of multi-level modal fusion for embodied navigation.
- Abstract(参考訳): Vision-and-Language Navigation (VLN)は、エンボディエージェントが自然言語の指示に従い、現実の環境でターゲットの場所に到達することを可能にすることを目的としている。
従来の手法はグローバルなシーン表現やオブジェクトレベルの特徴に頼っていることが多いが、これらの手法は正確なナビゲーションに必要なモダリティ間の複雑な相互作用を捉えるには不十分である。
本稿では,MFRA(Multi-level Fusion and Reasoning Architecture)を提案する。
特に、MFRAは階層的な融合機構を導入し、低レベルな視覚的手がかりから高レベルなセマンティックな概念への多段階的な特徴を集約する。
さらに、融合表現を利用してナビゲーションアクションを推論する推論モジュールを、命令誘導の注意と動的コンテキスト統合により設計する。
MFRAは、視覚的、言語的、時間的なシグナルを選択的に取り込み、組み合わせることで、複雑なナビゲーションシナリオにおける意思決定精度を向上させる。
REVERIE、R2R、SOONなどのベンチマークVLNデータセットに対する大規模な実験により、MFRAは最先端の手法に比べて優れた性能を示し、マルチレベルモーダル融合の有効性が検証された。
関連論文リスト
- IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Cross-domain Few-shot Object Detection with Multi-modal Textual Enrichment [21.36633828492347]
クロスドメイン多モードFew-Shotオブジェクト検出(CDMM-FSOD)
メタラーニングベースのフレームワークを導入し、リッチテキストセマンティクスを補助モダリティとして活用し、効果的なドメイン適応を実現する。
提案手法を共通のクロスドメインオブジェクト検出ベンチマークで評価し,既存の複数ショットオブジェクト検出手法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-23T06:59:22Z) - Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - A Dual Semantic-Aware Recurrent Global-Adaptive Network For
Vision-and-Language Navigation [3.809880620207714]
VLN(Vision-and-Language Navigation)は、エージェントが言語と視覚の手がかりを使用してターゲット領域を特定することを必要とする現実的だが困難なタスクである。
本研究は、上記の問題に対処するため、DSRG(Dual semantic-aware Recurrent Global-Adaptive Network)を提案する。
論文 参考訳(メタデータ) (2023-05-05T15:06:08Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。