論文の概要: DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2505.00743v1
- Date: Wed, 30 Apr 2025 06:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.765254
- Title: DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation
- Title(参考訳): DOPE:視覚・言語ナビゲーションのためのデュアルオブジェクト知覚エンハンスメントネットワーク
- Authors: Yinfeng Yu, Dongsheng Yang,
- Abstract要約: VLN(Vision-and-Language Navigation)は、エージェントが言語命令を理解し、視覚的手がかりを使って未知の環境をナビゲートしなければならない課題である。
本稿では,これらの問題に対処し,ナビゲーション性能を向上させるために,Dual Object Perception-Enhancement Network (DOPE)を提案する。
- 参考スコア(独自算出の注目度): 1.4154022683679812
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-and-Language Navigation (VLN) is a challenging task where an agent must understand language instructions and navigate unfamiliar environments using visual cues. The agent must accurately locate the target based on visual information from the environment and complete tasks through interaction with the surroundings. Despite significant advancements in this field, two major limitations persist: (1) Many existing methods input complete language instructions directly into multi-layer Transformer networks without fully exploiting the detailed information within the instructions, thereby limiting the agent's language understanding capabilities during task execution; (2) Current approaches often overlook the modeling of object relationships across different modalities, failing to effectively utilize latent clues between objects, which affects the accuracy and robustness of navigation decisions. We propose a Dual Object Perception-Enhancement Network (DOPE) to address these issues to improve navigation performance. First, we design a Text Semantic Extraction (TSE) to extract relatively essential phrases from the text and input them into the Text Object Perception-Augmentation (TOPA) to fully leverage details such as objects and actions within the instructions. Second, we introduce an Image Object Perception-Augmentation (IOPA), which performs additional modeling of object information across different modalities, enabling the model to more effectively utilize latent clues between objects in images and text, enhancing decision-making accuracy. Extensive experiments on the R2R and REVERIE datasets validate the efficacy of the proposed approach.
- Abstract(参考訳): VLN(Vision-and-Language Navigation)は、エージェントが言語命令を理解し、視覚的手がかりを使って未知の環境をナビゲートしなければならない課題である。
エージェントは、環境からの視覚情報に基づいてターゲットを正確に特定し、環境との相互作用を通じてタスクを完了させなければならない。
この分野での大きな進歩にもかかわらず、(1) 既存の多くのメソッドが命令内の詳細情報を十分に活用することなく、多層トランスフォーマーネットワークに直接完全言語命令を入力し、それによってタスク実行中のエージェントの言語理解能力を制限している、(2) 現行のアプローチは、異なるモード間でのオブジェクト関係のモデリングを見落とし、ナビゲーション決定の正確性や堅牢性に影響を与えるオブジェクト間の潜伏手がかりを効果的に活用できない、という2つの大きな制限が持続している。
本稿では,これらの問題に対処し,ナビゲーション性能を向上させるために,Dual Object Perception-Enhancement Network (DOPE)を提案する。
まずテキストセマンティック抽出(TSE)を設計し、テキストから比較的重要なフレーズを抽出し、テキストオブジェクト認識・拡張(TOPA)に入力し、命令内のオブジェクトやアクションなどの詳細をフル活用する。
第2に,画像とテキスト中の物体間の潜伏手がかりをより効果的に活用し,意思決定精度を向上させる画像オブジェクト知覚拡張(IOPA)を提案する。
R2RとREVERIEデータセットの大規模な実験により、提案手法の有効性が検証された。
関連論文リスト
- Cognitive Disentanglement for Referring Multi-Object Tracking [28.325814292139686]
本稿では,CDRMT(Cognitive Disentanglement for Referring Multi-Object Tracking)フレームワークを提案する。
CDRMTは人間の視覚処理システムからRMOTタスクへの"What"と"where"の経路を適応させる。
異なるベンチマークデータセットの実験では、CDRMTが最先端のメソッドよりも大幅に改善されていることが示されている。
論文 参考訳(メタデータ) (2025-03-14T15:21:54Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection [3.785123406103386]
我々は、オブジェクト検出に効果的な言語指導を導入するために、言語プロンプトを利用する。
本稿では,多モーダル知識学習(textbfMKL)と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2022-05-09T07:03:30Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。