論文の概要: TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2508.07683v1
- Date: Mon, 11 Aug 2025 06:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.983464
- Title: TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding
- Title(参考訳): TAR-TVG:テンポラルビデオグラウンドのためのタイムスタンプアンカー制約推論によるVLMの強化
- Authors: Chaohong Guo, Xun Mo, Yongwei Nie, Xuemiao Xu, Chao Xu, Fei Yu, Chengjiang Long,
- Abstract要約: 時間的ビデオグラウンディングは、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
テンポラルビデオグラウンド(TAR-TVG)のためのタイムスタンプアンカー制約推論を提案する。
TAR-TVGは、思考内容の明示的な監督を強制するために、推論プロセス内にタイムスタンプアンカーを導入する。
- 参考スコア(独自算出の注目度): 28.79516973256083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal Video Grounding (TVG) aims to precisely localize video segments corresponding to natural language queries, which is a critical capability for long-form video understanding. Although existing reinforcement learning approaches encourage models to generate reasoning chains before predictions, they fail to explicitly constrain the reasoning process to ensure the quality of the final temporal predictions. To address this limitation, we propose Timestamp Anchor-constrained Reasoning for Temporal Video Grounding (TAR-TVG), a novel framework that introduces timestamp anchors within the reasoning process to enforce explicit supervision to the thought content. These anchors serve as intermediate verification points. More importantly, we require each reasoning step to produce increasingly accurate temporal estimations, thereby ensuring that the reasoning process contributes meaningfully to the final prediction. To address the challenge of low-probability anchor generation in models (e.g., Qwen2.5-VL-3B), we develop an efficient self-distillation training strategy: (1) initial GRPO training to collect 30K high-quality reasoning traces containing multiple timestamp anchors, (2) supervised fine-tuning (SFT) on distilled data, and (3) final GRPO optimization on the SFT-enhanced model. This three-stage training strategy enables robust anchor generation while maintaining reasoning quality. Experiments show that our model achieves state-of-the-art performance while producing interpretable, verifiable reasoning chains with progressively refined temporal estimations.
- Abstract(参考訳): テンポラルビデオグラウンドティング(TVG)は、自然言語クエリに対応するビデオセグメントを正確にローカライズすることを目的としている。
既存の強化学習アプローチは、予測の前に推論連鎖を生成するようモデルに奨励するが、最終的な時間的予測の品質を保証するために推論過程を明示的に制約しない。
この制限に対処するため,タイムスタンプアンカーによるテンポラルビデオグラウンドティング(TAR-TVG)を提案する。
これらのアンカーは中間検証ポイントとして機能する。
さらに重要なことは、より正確な時間推定を生成するために各推論ステップが必要であるため、推論プロセスが最終的な予測に有意義に寄与することを保証する。
モデル(例えばQwen2.5-VL-3B)における低確率アンカー生成の課題に対処するため,(1)複数のタイムスタンプアンカーを含む30Kの高品質な推論トレースを収集する初期GRPO訓練,(2)蒸留データに対する教師付き微調整(SFT),(3)SFT強化モデルにおける最終GRPO最適化という,効率的な自己蒸留訓練戦略を開発した。
この3段階のトレーニング戦略は、推論品質を維持しながら堅牢なアンカー生成を可能にする。
実験により, 時間的推定を段階的に洗練し, 解釈可能かつ検証可能な推論連鎖を生成しながら, 最先端の性能を実現することを示す。
関連論文リスト
- Time Series Forecasting as Reasoning: A Slow-Thinking Approach with Reinforced LLMs [12.295608604703117]
Time-R1は、時系列予測のためのLLMの多段階推論能力を高めるために設計された2段階強化微調整フレームワークである。
具体的には、第1段はウォームアップ適応のための教師付き微調整を行い、第2段は強化学習を用いてモデルの一般化能力を向上させる。
実験によると、Time-R1は多様なデータセット間で予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-06-12T12:15:50Z) - Enhancing LLM Reasoning for Time Series Classification by Tailored Thinking and Fused Decision [8.256998757769322]
ReasonTSC は時系列分類のための LLM 推論を活用するために設計されたフレームワークである。
時系列データの本質的な特性について、モデルを熟考する。
これは、例えばドメイン固有の時系列モデルのようなプラグイン分類器からの予測と信頼スコアを、インコンテキストの例として統合する。
論文 参考訳(メタデータ) (2025-06-01T03:15:54Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - TimeRefine: Temporal Grounding with Time Refining Video LLM [75.99665302872901]
ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
論文 参考訳(メタデータ) (2024-12-12T18:59:11Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding [90.21119832796136]
時間的ビデオグラウンディング(Temporal Video Grounding)は、言語の説明から見れば、トリミングされていないビデオから瞬間をローカライズすることを目的としている。
従来のパラダイムの欠点を回避するため,TVGの新しいビジョン言語事前学習パラダイムであるAutoTVGを提案する。
論文 参考訳(メタデータ) (2024-06-11T09:31:37Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。