論文の概要: Factorized Learning for Temporally Grounded Video-Language Models
- arxiv url: http://arxiv.org/abs/2512.24097v1
- Date: Tue, 30 Dec 2025 09:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.339064
- Title: Factorized Learning for Temporally Grounded Video-Language Models
- Title(参考訳): 時間的接地映像言語モデルの要因学習
- Authors: Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng,
- Abstract要約: ビデオ理解における2つの主要な要因(時間的接地とテキスト応答)は論理的階層を形成する。
この2つのタスクの学習を分離するフレームワークであるD$2$VLMを提案する。
- 参考スコア(独自算出の注目度): 81.13591807802652
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent video-language models have shown great potential for video understanding, but still struggle with accurate temporal grounding for event-level perception. We observe that two main factors in video understanding (i.e., temporal grounding and textual response) form a logical hierarchy: accurate temporal evidence grounding lays the foundation for reliable textual response. However, existing works typically handle these two tasks in a coupled manner without a clear logical structure, leading to sub-optimal objectives. We address this from a factorized learning perspective. We first propose D$^2$VLM, a framework that decouples the learning of these two tasks while also emphasizing their inherent dependency. We adopt a "grounding then answering with evidence referencing" paradigm and introduce evidence tokens for evidence grounding, which emphasize event-level visual semantic capture beyond the focus on timestamp representation in existing works. To further facilitate the learning of these two tasks, we introduce a novel factorized preference optimization (FPO) algorithm. Unlike standard preference optimization, FPO explicitly incorporates probabilistic temporal grounding modeling into the optimization objective, enabling preference learning for both temporal grounding and textual response. We also construct a synthetic dataset to address the lack of suitable datasets for factorized preference learning with explicit temporal grounding. Experiments on various tasks demonstrate the clear advantage of our approach. Our source code is available at https://github.com/nusnlp/d2vlm.
- Abstract(参考訳): 最近のビデオ言語モデルは、ビデオ理解に大きな可能性を示しているが、イベントレベルの知覚のための正確な時間的根拠に苦戦している。
ビデオ理解における2つの主要な要因(時間的根拠とテキスト応答)が論理的階層を形成することを観察する。
しかし、既存の研究は通常、明確な論理構造を持たずにこれらの2つのタスクを結合的に処理し、準最適目的へと繋がる。
私たちはこれを、要因化された学習の観点から解決します。
まずD$^2$VLMという,これらの2つのタスクの学習を分離するフレームワークを提案し,その依存性を強調した。
我々は、既存の作品におけるタイムスタンプ表現よりも、イベントレベルの視覚的セマンティックキャプチャを強調した、エビデンスのためのエビデンストークンを導入する。
これら2つのタスクの学習を容易にするために,FPOアルゴリズムを提案する。
標準的な選好最適化とは異なり、FPOは確率的時間的グラウンドモデリングを最適化目標に明示的に組み込んでおり、時間的グラウンドとテキスト的応答の両方に対する選好学習を可能にしている。
また,時間的接地を明示した因子化選好学習に適したデータセットの欠如に対処するために,合成データセットを構築した。
様々なタスクの実験は、我々のアプローチの明確な利点を示しています。
ソースコードはhttps://github.com/nusnlp/d2vlm.comで公開されています。
関連論文リスト
- Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding [20.185272219985787]
テンポラルグラウンドディングは、意図しないビデオにおいて、与えられた文クエリに意味的に対応する対象のビデオモーメントを見つけることを目的としている。
従来の方法は、視覚的・テクスチャ的セマンティックアライメントに基づいて、ターゲットのモーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスに過度に依存する。
本稿では,シャッフルビデオを用いて時間的バイアス問題に対処し,グラウンド化精度を損なうことなく,グラウンド化モデルを構築するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T14:11:48Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Contrastive Spatio-Temporal Pretext Learning for Self-supervised Video
Representation [16.643709221279764]
本稿では,新しいプレテキストタスク-時間的重複率(STOR)予測を提案する。
それは、人間が空間と時間におけるビデオの重複率を識別できるという観察に由来する。
我々は、時間的表現学習を強化するために、コントラスト学習を組み合わせた共同作業を採用する。
論文 参考訳(メタデータ) (2021-12-16T14:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。