論文の概要: Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization
- arxiv url: http://arxiv.org/abs/2604.12346v1
- Date: Tue, 14 Apr 2026 06:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.288077
- Title: Unlocking the Potential of Grounding DINO in Videos: Parameter-Efficient Adaptation for Limited-Data Spatial-Temporal Localization
- Title(参考訳): ビデオにおける地上DINOの可能性の解錠:空間的空間的局所化のためのパラメータ効率の良い適応
- Authors: Zanyi Wang, Fan Li, Dengyang Jiang, Liuzhuozheng Li, Yunhua Zhong, Guang Dai, Mengmeng Wang,
- Abstract要約: 本稿では,事前学習した2次元視覚言語モデルをビデオタスクに適用する,データ効率のよいフレームワークST-GDを紹介する。
小さなデータセットで事前訓練された事前データを破壊しないように、ST-GDはベースモデルを凍結させ、軽量アダプタを戦略的に注入する。
ST-GDはデータスカースシナリオに優れ、限定スケールのHC-STVG v1/v2ベンチマークで高い競争性能を達成する。
- 参考スコア(独自算出の注目度): 24.301393950423897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal video grounding (STVG) aims to localize queried objects within dynamic video segments. Prevailing fully-trained approaches are notoriously data-hungry. However, gathering large-scale STVG data is exceptionally challenging: dense frame-level bounding boxes and complex temporal language alignments are prohibitively expensive to annotate, especially for specialized video domains. Consequently, conventional models suffer from severe overfitting on these inherently limited datasets, while zero-shot foundational models lack the task-specific temporal awareness needed for precise localization. To resolve this small-data challenge, we introduce ST-GD, a data-efficient framework that adapts pre-trained 2D visual-language models (e.g., Grounding DINO) to video tasks. To avoid destroying pre-trained priors on small datasets, ST-GD keeps the base model frozen and strategically injects lightweight adapters (~10M trainable parameters) to instill spatio-temporal awareness, alongside a novel temporal decoder for boundary prediction. This design naturally counters data scarcity. Consequently, ST-GD excels in data-scarce scenarios, achieving highly competitive performance on the limited-scale HC-STVG v1/v2 benchmarks, while maintaining robust generalization on the VidSTG dataset. This validates ST-GD as a powerful paradigm for complex video understanding under strict small-data constraints.
- Abstract(参考訳): 時空間ビデオグラウンドティング(STVG)は、動的ビデオセグメント内のクエリ対象をローカライズすることを目的としている。
十分に訓練されたアプローチは、データ不足で悪名高い。
しかし、大規模なSTVGデータの収集は非常に困難であり、特に特殊なビデオドメインでは、フレームレベルの密集したバウンディングボックスと複雑な時間的言語アライメントは、アノテートが違法に高価である。
その結果、従来のモデルはこれらの本質的に制限されたデータセットに対して厳しいオーバーフィッティングに苦しむ一方、ゼロショット基礎モデルは正確なローカライゼーションに必要なタスク固有の時間的認識を欠いている。
この小さなデータ課題を解決するために、ビデオタスクに事前訓練された2次元視覚言語モデル(例えば、Grounding DINO)を適用するデータ効率のフレームワークST-GDを導入する。
小さなデータセット上で事前トレーニングされた事前データを破壊しないように、ST-GDはベースモデルを凍結させ、境界予測のための新しい時間デコーダとともに、時空間認識を具現化するために軽量アダプタ(約10Mのトレーニング可能なパラメータ)を戦略的に注入する。
この設計はデータ不足に自然に対処する。
その結果、ST-GDはデータスカースシナリオに優れ、限られたスケールのHC-STVG v1/v2ベンチマークで高い競争性能を達成し、VidSTGデータセットの堅牢な一般化を維持している。
これにより、ST-GDは厳密な小データ制約の下で複雑なビデオ理解のための強力なパラダイムとして検証される。
関連論文リスト
- STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning [65.36458157092207]
視覚言語モデル(VLM)では、テキスト記述と視覚座標のミスアライメントはしばしば幻覚を引き起こす。
本稿では,座標の調整が難しい問題を回避するために,新しい視覚的プロンプトパラダイムを提案する。
本稿では,STVGの最初の強化学習フレームワークであるSTVG-R1を紹介する。
論文 参考訳(メタデータ) (2026-02-12T08:53:32Z) - Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning [41.30900315121155]
マルチモーダル大言語モデル(LM)は、トレーニング目的のミスアライメントと、標準のビジュアルエンコーダにおける微粒な微粒化アライメントの弱さにより、STVGでは性能が劣る。
本稿では,STVG-o1を提案する。STVG-o1は,市販のMLLMがアーキテクチャ変更なしにリアルタイムのSTVG性能を実現するための最初のフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:21:15Z) - UnLoc: Leveraging Depth Uncertainties for Floorplan Localization [80.55849461031879]
UnLocはフロアプラン内のシーケンシャルカメラローカライゼーションのための効率的なデータ駆動ソリューションである。
本研究では,不確実性推定を組み込んだ新しい確率モデルを導入し,深度予測を明示的な確率分布としてモデル化する。
我々はUnLocを大規模合成および実世界のデータセット上で評価し、精度とロバスト性の観点から大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-09-14T14:45:43Z) - OmniTraj: Pre-Training on Heterogeneous Data for Adaptive and Zero-Shot Human Trajectory Prediction [62.385417528148224]
OmniTrajは、大規模な異種データセットで事前トレーニングされたトランスフォーマーベースのモデルである。
実験によると、フレームレートを明示的に条件付けすることで、OmniTrajは最先端のゼロショット転送性能を実現することができる。
論文 参考訳(メタデータ) (2025-07-31T15:37:09Z) - Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning [9.8322406322074]
Video Temporal Groundingは、自然言語クエリが与えられたビデオに関連のある時間セグメントをローカライズすることを目的としている。
既存のアプローチは、時間的認識の制限と一般化の低さに悩まされることが多い。
教師付き微調整と強化学習を統合した2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:24:01Z) - ST-FiT: Inductive Spatial-Temporal Forecasting with Limited Training Data [59.78770412981611]
現実世界のアプリケーションでは、ほとんどのノードはトレーニング中に利用可能な時間データを持っていないかもしれない。
この問題に対処するために,ST-FiTというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-14T17:51:29Z) - EasyST: A Simple Framework for Spatio-Temporal Prediction [18.291117879544945]
本稿では,時空間予測のための簡単なフレームワークであるEasySTパラダイムを提案する。
複雑な時間的GNNからの知識を蒸留することにより、軽量で堅牢なマルチ層パーセプトロン(MLP)の一般化を学習する。
EasySTは、効率と精度の点で最先端のアプローチを超越している。
論文 参考訳(メタデータ) (2024-09-10T11:40:01Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。