論文の概要: SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2603.25733v1
- Date: Thu, 26 Mar 2026 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.427771
- Title: SlotVTG: Object-Centric Adapter for Generalizable Video Temporal Grounding
- Title(参考訳): SlotVTG: 汎用ビデオ時間グラウンド用オブジェクト中心アダプタ
- Authors: Jiwook Han, Geo Ahn, Youngrae Kim, Jinwoo Choi,
- Abstract要約: SlotVTGは、MLLMを最小限のコストで、オブジェクト中心の、入力基底の視覚的推論に向けるフレームワークである。
我々のアプローチは、最小限のオーバーヘッドで競合するIn-Domain(ID)性能を維持しながら、OODロバスト性を大幅に改善します。
- 参考スコア(独自算出の注目度): 5.9095311593289575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown strong performance on Video Temporal Grounding (VTG). However, their coarse recognition capabilities are insufficient for fine-grained temporal understanding, making task-specific fine-tuning indispensable. This fine-tuning causes models to memorize dataset-specific shortcuts rather than faithfully grounding in the actual visual content, leading to poor Out-of-Domain (OOD) generalization. Object-centric learning offers a promising remedy by decomposing scenes into entity-level representations, but existing approaches require re-running the entire multi-stage training pipeline from scratch. We propose SlotVTG, a framework that steers MLLMs toward object-centric, input-grounded visual reasoning at minimal cost. SlotVTG introduces a lightweight slot adapter that decomposes visual tokens into abstract slots via slot attention and reconstructs the original sequence, where objectness priors from a self-supervised vision model encourage semantically coherent slot formation. Cross-domain evaluation on standard VTG benchmarks demonstrates that our approach significantly improves OOD robustness while maintaining competitive In-Domain (ID) performance with minimal overhead.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はビデオ時間グラウンド(VTG)において高い性能を示した。
しかし、その粗い認識能力は、きめ細かい時間的理解には不十分であり、タスク固有の微調整が不可欠である。
この微調整により、モデルが実際の視覚的コンテンツを忠実に基礎づけるのではなく、データセット固有のショートカットを記憶するようになり、OOD(Out-of-Domain)の一般化が貧弱になる。
オブジェクト中心学習は、シーンをエンティティレベルの表現に分解することで、有望な対策を提供するが、既存のアプローチでは、スクラッチからマルチステージトレーニングパイプライン全体を再実行する必要がある。
SlotVTGは、MLLMを最小限のコストで、オブジェクト中心の、入力基底の視覚的推論に向けるフレームワークである。
SlotVTGは、スロットアテンションを介して視覚トークンを抽象スロットに分解し、独自のシーケンスを再構築する軽量スロットアダプタを導入している。
標準VTGベンチマークのクロスドメイン評価は、我々のアプローチがOODロバスト性を大幅に向上し、競合するIn-Domain(ID)性能を最小限のオーバーヘッドで維持することを示した。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning [41.30900315121155]
マルチモーダル大言語モデル(LM)は、トレーニング目的のミスアライメントと、標準のビジュアルエンコーダにおける微粒な微粒化アライメントの弱さにより、STVGでは性能が劣る。
本稿では,STVG-o1を提案する。STVG-o1は,市販のMLLMがアーキテクチャ変更なしにリアルタイムのSTVG性能を実現するための最初のフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:21:15Z) - SVAG-Bench: A Large-Scale Benchmark for Multi-Instance Spatio-temporal Video Action Grounding [48.64661382961745]
本研究では,ビデオ中のすべての参照オブジェクトを同時に検出,追跡,時間的ローカライズするモデルを必要とする新しいタスクである,SVAG(Spatio-temporal Video Action Grounding)を紹介する。
SVAG-Benchは688の動画、19,590の注釈付きレコード、903のユニークな動詞からなる大規模ベンチマークである。
実験の結果、既存のモデルではSVAG、特に密集したシーンや複雑なシーンでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2025-10-14T22:10:49Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。