論文の概要: TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding
- arxiv url: http://arxiv.org/abs/2602.19768v1
- Date: Mon, 23 Feb 2026 12:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.804549
- Title: TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding
- Title(参考訳): TraceVision:人間のような空間理解のための軌道認識型視覚言語モデル
- Authors: Fan Yang, Shurong Zheng, Hongyin Zhao, Yufei Zhan, Xin Li, Yousong Zhu, Chaoyang Zhao Ming Tang, Jinqiao Wang,
- Abstract要約: 終末のフレームワークに軌跡認識空間理解を統合した統合視覚言語モデルを提案する。
Trajectory-aware Visual Perception (TVP)モジュールを使用して、視覚的特徴と軌跡情報を双方向に融合する。
我々は、TraceVisionを軌跡誘導セグメンテーションと映像シーン理解に拡張し、クロスフレームトラッキングと時間的注意分析を可能にする。
- 参考スコア(独自算出の注目度): 28.808796664403342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Vision-Language Models (LVLMs) demonstrate remarkable capabilities in image understanding and natural language generation. However, current approaches focus predominantly on global image understanding, struggling to simulate human visual attention trajectories and explain associations between descriptions and specific regions. We propose TraceVision, a unified vision-language model integrating trajectory-aware spatial understanding in an end-to-end framework. TraceVision employs a Trajectory-aware Visual Perception (TVP) module for bidirectional fusion of visual features and trajectory information. We design geometric simplification to extract semantic keypoints from raw trajectories and propose a three-stage training pipeline where trajectories guide description generation and region localization. We extend TraceVision to trajectory-guided segmentation and video scene understanding, enabling cross-frame tracking and temporal attention analysis. We construct the Reasoning-based Interactive Localized Narratives (RILN) dataset to enhance logical reasoning and interpretability. Extensive experiments on trajectory-guided captioning, text-guided trajectory prediction, understanding, and segmentation demonstrate that TraceVision achieves state-of-the-art performance, establishing a foundation for intuitive spatial interaction and interpretable visual understanding.
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)は、画像理解と自然言語生成において顕著な能力を示している。
しかし、近年のアプローチは、人間の視覚的注意の軌跡をシミュレートし、記述と特定領域の関係を説明するのに苦慮している。
終端のフレームワークに軌跡認識空間的理解を統合する統合視覚言語モデルであるTraceVisionを提案する。
Trajectory-aware Visual Perception (TVP)モジュールを使用して、視覚的特徴と軌跡情報を双方向に融合する。
生の軌跡から意味キーポイントを抽出する幾何学的単純化を設計し、3段階の学習パイプラインを提案する。
我々は、TraceVisionを軌跡誘導セグメンテーションと映像シーン理解に拡張し、クロスフレームトラッキングと時間的注意分析を可能にする。
我々は、論理的推論と解釈可能性を高めるために、Reasoning-based Interactive Localized Narratives (RILN)データセットを構築した。
トラジェクティブ誘導キャプション、テキスト誘導軌道予測、理解、セグメンテーションに関する広範な実験は、TraceVisionが最先端のパフォーマンスを達成し、直感的な空間的相互作用と解釈可能な視覚的理解の基礎を確立することを実証している。
関連論文リスト
- Lifting Vision: Ground to Aerial Localization with Reasoning Guided Planning [0.0]
視覚表現のみを用いて、計画とローカライズを行う視覚推論(ViReLoc)を導入する。
提案フレームワークは,テキストに基づく推論が理解に苦しむ空間的依存関係と幾何学的関係を学習する。
多様なナビゲーションおよびローカライゼーションシナリオによる実験は、空間的推論精度とクロスビュー検索性能が一貫した改善を示す。
論文 参考訳(メタデータ) (2025-12-30T18:36:39Z) - Vision-and-Language Navigation with Analogical Textual Descriptions in LLMs [41.977702477816756]
既存のVision-and-Language Navigation (VLN)エージェントは、画像をテキストシーン記述としてエンコードする。
複数の視点からテキスト記述を組み込むことで,ナビゲーションエージェントの文脈理解を改善した。
R2Rデータセットに対する我々のアプローチの評価を行い、ナビゲーション性能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-29T17:51:01Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - Cross-modal Map Learning for Vision and Language Navigation [82.04247028482244]
VLN(Vision-and-Language Navigation)の問題点について考察する。
他の研究とは対照的に、我々の重要な洞察は、言語と視覚の関連性は、明示的な空間表現で起こるときに強くなるということである。
視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。このモデルでは,まず,観測領域と観測対象領域の両方に対して,エゴセントリックマップ上のトップダウンセマンティクスを予測することを学習する。
論文 参考訳(メタデータ) (2022-03-10T03:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。