論文の概要: Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos
- arxiv url: http://arxiv.org/abs/2602.23937v1
- Date: Fri, 27 Feb 2026 11:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.394323
- Title: Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos
- Title(参考訳): 実世界屋内ツアー映像からのマルチモーダルイベント知識によるビジョンランゲージナビゲーションの強化
- Authors: Haoxuan Xu, Tianfu Li, Wenbo Chen, Yi Liu, Xingxing Zuo, Yaoxian Song, Haoang Li,
- Abstract要約: 本稿では,自動プロセス知識マイニングと機能融合のためのイベント中心の知識向上戦略を提案する。
構造化されたセマンティック・アクション・エフェクト・イベントに非構造化ビデオストリームを抽出し、明示的なエピソード記憶として機能する。
REVERIE、R2R、R2R-CEベンチマークの実験は、我々の戦略の効率を実証している。
- 参考スコア(独自算出の注目度): 15.251897505310682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Navigation (VLN) agents often struggle with long-horizon reasoning in unseen environments, particularly when facing ambiguous, coarse-grained instructions. While recent advances use knowledge graph to enhance reasoning, the potential of multimodal event knowledge inspired by human episodic memory remains underexplored. In this work, we propose an event-centric knowledge enhancement strategy for automated process knowledge mining and feature fusion to solve coarse-grained instruction and long-horizon reasoning in VLN task. First, we construct YE-KG, the first large-scale multimodal spatiotemporal knowledge graph, with over 86k nodes and 83k edges, derived from real-world indoor videos. By leveraging multimodal large language models (i.e., LLaVa, GPT4), we extract unstructured video streams into structured semantic-action-effect events to serve as explicit episodic memory. Second, we introduce STE-VLN, which integrates the above graph into VLN models via a Coarse-to-Fine Hierarchical Retrieval mechanism. This allows agents to retrieve causal event sequences and dynamically fuse them with egocentric visual observations. Experiments on REVERIE, R2R, and R2R-CE benchmarks demonstrate the efficiency of our event-centric strategy, outperforming state-of-the-art approaches across diverse action spaces. Our data and code are available on the project website https://sites.google.com/view/y-event-kg/.
- Abstract(参考訳): VLN(Vision-Language Navigation)エージェントは、特にあいまいで粗い指示に直面する場合、目に見えない環境で長い水平推論に苦しむことが多い。
近年の進歩では、知識グラフによる推論の強化が試みられているが、人間のエピソード記憶にインスパイアされたマルチモーダル事象の知識の可能性は未解明のままである。
本稿では,VLNタスクにおける粗粒度命令と長軸推論を解くために,自動プロセス知識マイニングと特徴融合のためのイベント中心の知識向上戦略を提案する。
まず,実世界の屋内ビデオから得られた86k以上のノードと83kのエッジを持つ,最初の大規模マルチモーダル時空間知識グラフYE-KGを構築した。
マルチモーダルな大言語モデル(LLaVa, GPT4)を活用することで、構造化されたセマンティック・アクション・エフェクトイベントに非構造化ビデオストリームを抽出し、明示的なエピソードメモリとして機能する。
次に、STE-VLNを導入し、このグラフを粗大な階層的検索機構によってVLNモデルに統合する。
これにより、エージェントは因果事象のシーケンスを検索し、エゴ中心の視覚観察でそれらを動的に融合することができる。
REVERIE、R2R、R2R-CEベンチマークの実験では、イベント中心戦略の効率性が示され、さまざまなアクション空間における最先端アプローチよりも優れています。
私たちのデータとコードはプロジェクトのWebサイトhttps://sites.google.com/view/y-event-kg/.comで公開されています。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Event Extraction in Large Language Model [99.94321497574805]
私たちは、LLM中心のソリューションに認知的な足場を提供するシステムコンポーネントとして、EEは見なされるべきである、と論じます。
この調査では、EEのテキストとマルチモーダル設定、タスクと分類の整理、ルールベースとニューラルモデルから命令駆動および生成フレームワークへのメソッド進化のトレースについて取り上げている。
論文 参考訳(メタデータ) (2025-12-22T16:22:14Z) - Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - VL-KnG: Visual Scene Understanding for Navigation Goal Identification using Spatiotemporal Knowledge Graphs [2.779512031764865]
本稿では,知識グラフ構築と識別のための効率的なクエリ処理を用いて,課題に対処するビジュアルシーン理解システムを提案する。
また、WalkieKnowledgeという、約100分間のビデオデータにまたがる8つのさまざまなトラジェクトリに対して、約200の注釈付き質問が手動で表示される新しいベンチマークも導入しました。
論文 参考訳(メタデータ) (2025-10-01T21:53:44Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - EventVL: Understand Event Streams via Multimodal Large Language Model [29.23525787969373]
明示的意味理解のためのイベントベースMLLMフレームワークであるEventVLを提案する。
具体的には、異なるモダリティセマンティクスを接続するためにデータギャップをブリッジするために、まず大きなイベントイメージ/ビデオテキストデータセットに注釈を付ける。
よりコンパクトなセマンティック空間を促進するために、イベントのスパースなセマンティック空間を改善するために動的セマンティックアライメントが導入される。
論文 参考訳(メタデータ) (2025-01-23T14:37:21Z) - DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes [76.24687327731031]
まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。
私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。
我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - EventLens: Leveraging Event-Aware Pretraining and Cross-modal Linking Enhances Visual Commonsense Reasoning [4.754556073011081]
ビジュアルコモンセンス推論(Visual Commonsense Reasoning、VCR)は、人間のコモンセンスを必要とする視覚的疑問に答えるために、モデルに挑戦する認知タスクである。
Event-Aware Pretraining と Cross-modal Linking と EnhanceS VCR を利用する EventLens を提案する。
論文 参考訳(メタデータ) (2024-04-22T03:05:32Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Dysen-VDM: Empowering Dynamics-aware Text-to-Video Diffusion with LLMs [112.39389727164594]
テキスト・ツー・ビデオ(T2V)合成は,最近出現した拡散モデル (DM) が,過去のアプローチよりも有望な性能を示したコミュニティで注目を集めている。
既存の最先端のDMは高精細なビデオ生成を実現する能力があるが、ビデオ合成の要点である時間力学モデリングに関して重要な制限(例えば、アクション発生障害、粗雑なビデオ運動)に悩まされる。
本研究では,高品位T2V生成のためのDMの映像ダイナミックスに対する意識向上について検討する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - History Aware Multimodal Transformer for Vision-and-Language Navigation [96.80655332881432]
ヴィジュアル・アンド・ランゲージナビゲーション(VLN)は、指示に従う自律的な視覚エージェントの構築と、実際のシーンでのナビゲーションを目的としている。
長い水平履歴をマルチモーダルな意思決定に組み込むために,HAMT(History Aware Multimodal Transformer)を導入する。
論文 参考訳(メタデータ) (2021-10-25T22:54:41Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。