論文の概要: Spatio-Temporal Data Enhanced Vision-Language Model for Traffic Scene Understanding
- arxiv url: http://arxiv.org/abs/2511.08978v1
- Date: Thu, 13 Nov 2025 01:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.335753
- Title: Spatio-Temporal Data Enhanced Vision-Language Model for Traffic Scene Understanding
- Title(参考訳): 交通場面理解のための時空間データ強化視覚言語モデル
- Authors: Jingtian Ma, Jingyuan Wang, Wayne Xin Zhao, Guoping Liu, Xiang Wen,
- Abstract要約: 交通シーン理解 (tsu) は,交通シーンを包括的に記述することを目的としている。
近年の研究では、時間的課題を無視して、共通のイメージ理解タスクとして扱われることが多い。
これは視覚モデルに時間情報を統合する最初の試みである。
- 参考スコア(独自算出の注目度): 49.748517517482014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Nowadays, navigation and ride-sharing apps have collected numerous images with spatio-temporal data. A core technology for analyzing such images, associated with spatiotemporal information, is Traffic Scene Understanding (TSU), which aims to provide a comprehensive description of the traffic scene. Unlike traditional spatio-temporal data analysis tasks, the dependence on both spatio-temporal and visual-textual data introduces distinct challenges to TSU task. However, recent research often treats TSU as a common image understanding task, ignoring the spatio-temporal information and overlooking the interrelations between different aspects of the traffic scene. To address these issues, we propose a novel SpatioTemporal Enhanced Model based on CILP (ST-CLIP) for TSU. Our model uses the classic vision-language model, CLIP, as the backbone, and designs a Spatio-temporal Context Aware Multiaspect Prompt (SCAMP) learning method to incorporate spatiotemporal information into TSU. The prompt learning method consists of two components: A dynamic spatio-temporal context representation module that extracts representation vectors of spatio-temporal data for each traffic scene image, and a bi-level ST-aware multi-aspect prompt learning module that integrates the ST-context representation vectors into word embeddings of prompts for the CLIP model. The second module also extracts low-level visual features and image-wise high-level semantic features to exploit interactive relations among different aspects of traffic scenes. To the best of our knowledge, this is the first attempt to integrate spatio-temporal information into visionlanguage models to facilitate TSU task. Experiments on two realworld datasets demonstrate superior performance in the complex scene understanding scenarios with a few-shot learning strategy.
- Abstract(参考訳): 現在、ナビゲーションとライドシェアリングアプリは、時空間データによる多数の画像を収集している。
このようなイメージを時空間情報に関連づけた分析技術として,交通シーンを包括的に記述することを目的とした交通シーン理解(TS)がある。
従来の時空間データ解析タスクとは異なり、時空間データと時空間データへの依存は、TSタスクに異なる課題をもたらす。
しかし、近年の研究では、時空間情報を無視し、交通シーンの異なる側面間の相互関係を見越して、津を共通画像理解タスクとして扱うことが多い。
これらの課題に対処するために, TS 用 CILP (ST-CLIP) に基づく新しい時空間拡張モデルを提案する。
本モデルは,従来の視覚言語モデルであるCLIPをバックボーンとして使用し,時空間認識マルチアスペクトプロンプト(SCAMP)学習法を設計し,時空間情報をTSに組み込む。
トラフィックシーン画像毎の時空間データの表現ベクトルを抽出する動的時空間表現モジュールと、STコンテキスト表現ベクトルをCLIPモデルのプロンプトの単語埋め込みに統合するバイレベルST対応マルチアスペクトプロンプト学習モジュールとからなる。
第2のモジュールは、トラフィックシーンの異なる側面間の対話的関係を利用するために、低レベルな視覚的特徴と高レベルな意味的特徴も抽出する。
我々の知る限りでは、TSタスクを促進するために、時空間情報を視覚言語モデルに統合する最初の試みである。
2つの実世界のデータセットの実験は、数ショットの学習戦略を備えた複雑なシーン理解シナリオにおいて、優れたパフォーマンスを示す。
関連論文リスト
- Remote Sensing SpatioTemporal Vision-Language Models: A Comprehensive Survey [35.600870905903996]
本稿では,RS-STVLMの総合的なレビューを行う。
本稿では, 変更キャプション, 変更質問, 回答キャプション, 変更グラウンドなど, 代表課題の進捗状況について論じる。
遠隔センシングのための視覚言語理解における現在の成果と将来的な研究の方向性を照らすことを目的としている。
論文 参考訳(メタデータ) (2024-12-03T16:56:10Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge [47.750073410717604]
時間的接地機能を備えたMLLMをブートストラップする新しいフレームワークである時間的接地橋(TGB)について紹介する。
7つのビデオベンチマークでTGBを検証し,従来のMLLMと比較して大幅な性能向上を示した。
4フレームのシーケンスをトレーニングした本モデルでは,性能を犠牲にすることなく,最大16のシーケンスを効果的に処理する。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。