論文の概要: ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.19355v2
- Date: Wed, 26 Mar 2025 05:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 09:39:20.838064
- Title: ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models
- Title(参考訳): ST-VLM:視覚言語モデルにおける時空間推論のための運動的インストラクションチューニング
- Authors: Dohwan Ko, Sihyeon Kim, Yumin Suh, Vijay Kumar B. G, Minseo Yoon, Manmohan Chandraker, Hyunwoo J. Kim,
- Abstract要約: 視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。
我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。
本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
- 参考スコア(独自算出の注目度): 63.12671761097701
- License:
- Abstract: Spatio-temporal reasoning is essential in understanding real-world environments in various fields, eg, autonomous driving and sports analytics. Recent advances have improved the spatial reasoning ability of Vision-Language Models (VLMs) by introducing large-scale data, but these models still struggle to analyze kinematic elements like traveled distance and speed of moving objects. To bridge this gap, we construct a spatio-temporal reasoning dataset and benchmark involving kinematic instruction tuning, referred to as STKit and STKit-Bench. They consist of real-world videos with 3D annotations, detailing object motion dynamics: traveled distance, speed, movement direction, inter-object distance comparisons, and relative movement direction. To further scale such data construction to videos without 3D labels, we propose an automatic pipeline to generate pseudo-labels using 4D reconstruction in real-world scale. With our kinematic instruction tuning data for spatio-temporal reasoning, we present ST-VLM, a VLM enhanced for spatio-temporal reasoning, which exhibits outstanding performance on STKit-Bench. Furthermore, we show that ST-VLM generalizes robustly across diverse domains and tasks, outperforming baselines on other spatio-temporal benchmarks (eg, ActivityNet, TVQA+). Finally, by integrating learned spatio-temporal reasoning with existing abilities, ST-VLM enables complex multi-step reasoning. Project page: https://ikodoh.github.io/ST-VLM.
- Abstract(参考訳): 時空間推論は、様々な分野、例えば自動運転、スポーツ分析などの現実世界の環境を理解するのに不可欠である。
近年,大規模データの導入による視覚言語モデル(VLM)の空間的推論能力の向上が進んでいるが,移動距離や移動物体の速度といった運動要素の分析に苦慮している。
このギャップを埋めるために,STKit と STKit-Bench と呼ばれる運動的命令チューニングを含む時空間推論データセットとベンチマークを構築した。
3Dアノテーションを備えた実世界のビデオからなり、移動距離、速度、移動方向、物体間距離比較、相対移動方向など、物体の動きのダイナミクスを詳述する。
3Dラベルを使わずに動画にこのようなデータ構築を拡大するために,実世界規模で4D再構成を用いて擬似ラベルを生成するパイプラインを提案する。
時空間推論のための運動的調律データを用いて,時空間推論のためのVLMであるST-VLMを提案し,STKit-Bench上での卓越した性能を示す。
さらに,ST-VLM は他の時空間ベンチマーク(ActivityNet,TVQA+ など)において,様々な領域やタスクにまたがって堅牢な一般化を実現していることを示す。
最後に、学習時空間推論と既存の能力を統合することにより、ST-VLMは複雑な多段階推論を可能にする。
プロジェクトページ: https://ikodoh.github.io/ST-VLM
関連論文リスト
- Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs [66.57518905079262]
VideoMindは、重要なビデオモーメントを、アロジカルに構造化されたセマンティックグラフに整理する。
ミンドパレス」は、(i)手動追跡、(ii)繰り返し活動の特定領域を表すクラスタ化されたゾーン活動、(iii)環境レイアウトマッピングを通じて重要な情報を整理する。
論文 参考訳(メタデータ) (2025-01-08T08:15:29Z) - DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and
Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。
本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。
我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-03-09T12:22:46Z) - SpOT: Spatiotemporal Modeling for 3D Object Tracking [68.12017780034044]
3Dマルチオブジェクトトラッキングは、常にすべてのモバイル時間を特定することを目的としている。
現在の3Dトラッキング手法は、抽象化された情報と限られた歴史に依存している。
本研究では,空間的情報と時間的情報の両方を活用するシーンの全体的表現を開発する。
論文 参考訳(メタデータ) (2022-07-12T21:45:49Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Tracking from Patterns: Learning Corresponding Patterns in Point Clouds
for 3D Object Tracking [34.40019455462043]
本稿では,時間点雲データから3次元オブジェクト対応を学習し,対応パターンから動き情報を推測する。
提案手法は,KITTIと大規模Nuscenesデータセットの双方において,既存の3次元追跡手法を超えている。
論文 参考訳(メタデータ) (2020-10-20T06:07:20Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。