論文の概要: 1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning
- arxiv url: http://arxiv.org/abs/2512.06673v1
- Date: Sun, 07 Dec 2025 06:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.461303
- Title: 1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning
- Title(参考訳): 1 + 1 > 2: 時空間接地・推論のための検出器駆動型ビデオ大言語モデル
- Authors: Shida Gao, Feng Xue, Xiangfeng Wang, Anlong Ming, Teng Long, Yihua Shao, Haozhe Wang, Zhaowen Lin, Wei Wang, Nicu Sebe,
- Abstract要約: 本稿では,DEViL の略である Detector-Empowered Video LLM を提案する。
DEViLはオープンボキャブラリ検出器(OVD)とビデオLLMを結合する
単に空間的なプロンプトやセグメンタスイッチとして機能するトークンとは異なり、RTTは制御信号とOVDのテキスト埋め込みの置き換えの両方として機能する。
- 参考スコア(独自算出の注目度): 53.28271278708241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal grounding and reasoning aims to locate the temporal segment and spatial region of an event in a video given a user query, while also reasoning about semantics such as causality, temporal order, and action relationships. To achieve this, current MLLMs primarily treats bounding boxes as text tokens and generates them autoregressively. However, such autoregressive spatial decoding leads to very-long output sequences, causing spatial errors to accumulated over time and the localization results to progressively drift across a video. To address this, we present a Detector-Empowered Video LLM, short for DEViL, which couples a Video LLM with an open-vocabulary detector (OVD). Specifically, the MLLM and detector are connected via a reference-semantic token (RST) that distills the user query into a rich semantic representation. Unlike tokens that merely serve as spatial prompts or segmentor switches, the RST functions as both a control signal and a replacement for the OVD's text embedding, enabling end-to-end learning of both referential understanding and spatial localization. Furthermore, we propose a tube-mined temporal regularization (TTReg) within OVD, which drives the OVD to generate temporally-consistent queries for target objects, thereby ensuring effective temporal association. Experiments demonstrate that DEViL achieves strong performance across various fine-grained video understanding tasks, particularly STVG and GroundedVQA. Code will be released on https://github.com/gaostar123/DeViL.
- Abstract(参考訳): 時空間的接地と推論は、ユーザクエリが与えられたビデオ内のイベントの時間的セグメントと空間的領域を特定し、因果関係、時間的順序、行動関係などの意味論を推論することを目的としている。
これを実現するために、現在のMLLMは主に境界ボックスをテキストトークンとして扱い、それらを自動回帰的に生成する。
しかし、このような自己回帰的な空間復号化は、非常に長い出力シーケンスをもたらし、時間とともに空間誤差が蓄積され、動画を徐々に移動させる。
そこで本研究では,ビデオLLMとオープンボキャブラリ検出器(OVD)を結合したビデオLLMについて述べる。
具体的には、MLLMと検出器は、ユーザクエリをリッチなセマンティック表現に蒸留する参照セマンティックトークン(RST)を介して接続される。
単に空間的プロンプトやセグメンタスイッチとして機能するトークンとは異なり、RTTは制御信号とOVDのテキスト埋め込みの代替として機能し、参照理解と空間的局所化の両方のエンドツーエンド学習を可能にする。
さらに,OVD内のチューブマイニング時間正規化(TTReg)を提案し,OVDを駆動して対象オブジェクトに対して時間的に一貫性のあるクエリを生成し,効果的な時間的関連性を確保する。
DEViLは様々な細粒度ビデオ理解タスク、特にSTVGやGroundedVQAで高い性能を発揮することを示す実験である。
コードはhttps://github.com/gaostar123/DeViLでリリースされる。
関連論文リスト
- Unleashing the Potential of Multimodal LLMs for Zero-Shot Spatio-Temporal Video Grounding [47.400649582392255]
大規模言語モデル(MLLM)を用いて,STVGのゼロショットソリューションを探索する。
STVGのためのMLLMベースのゼロショットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:35:50Z) - Temporal Grounding as a Learning Signal for Referring Video Object Segmentation [29.646697516547558]
Referring Video Object (RVOS)は、自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションと追跡を目的としており、ビジュアルコンテンツとテキストクエリの正確なアライメントを必要とする。
既存の手法は、主に訓練中にフレームサンプリングとすべての可視物体の監督が区別できないため、意味的ミスアライメントに悩まされることが多い。
私たちは、MeViSベンチマークに基づいて構築されたデータセットであるMeViS-Mを紹介します。
論文 参考訳(メタデータ) (2025-08-16T07:34:43Z) - Aligning Effective Tokens with Video Anomaly in Large Language Models [42.99603812716817]
本稿では,様々なビデオにおける異常事象の要約と局所化を目的とした新しいMLLMであるVA-GPTを提案する。
提案手法は,視覚エンコーダとLCM間の有効トークンを2つの重要なモジュールを通して効率的に整列する。
本研究では,ビデオアノマ対応MLLMの微調整のための命令追従データセットを構築した。
論文 参考訳(メタデータ) (2025-08-08T14:30:05Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding [48.745013691038295]
VideoExpertは、複数の時間に敏感なビデオタスクに適した汎用MLLMである。
時間の専門家は、時系列をモデル化し、時間的接地を行う責任を負う。
空間専門家は、コンテンツの詳細分析と以下の指示に焦点を当てている。
コンテンツ生成から時間的グラウンドをオフロードすることで、VideoExpertはタイムスタンプ予測におけるテキストパターンのバイアスを防ぐ。
論文 参考訳(メタデータ) (2025-04-10T07:33:39Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - Video LLMs for Temporal Reasoning in Long Videos [7.2900856926028155]
テンポラルVLM(TemporalVLM)は、ビデオ大言語モデルであり、時間的推論を効果的に行い、長いビデオにおいてきめ細やかな理解を可能にする。
我々のアプローチには、長期入力ビデオの時間認識機能へのマッピングと、ローカルおよびグローバルの両方のキューを含むビジュアルエンコーダが含まれる。
本稿では,TemporalVLMの評価を容易にするために,産業組み立てプロセスの大規模ビデオデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-04T00:50:33Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。