論文の概要: TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2512.14698v1
- Date: Tue, 16 Dec 2025 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.847855
- Title: TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs
- Title(参考訳): TimeLens: ビデオの時間的グラウンドをマルチモーダルLLMで再考
- Authors: Jun Zhang, Teng Wang, Yuying Ge, Yixiao Ge, Xinhao Li, Ying Shan, Limin Wang,
- Abstract要約: 我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。
まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
- 参考スコア(独自算出の注目度): 81.78017865436816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper does not introduce a novel method but instead establishes a straightforward, incremental, yet essential baseline for video temporal grounding (VTG), a core capability in video understanding. While multimodal large language models (MLLMs) excel at various video understanding tasks, the recipes for optimizing them for VTG remain under-explored. In this paper, we present TimeLens, a systematic investigation into building MLLMs with strong VTG ability, along two primary dimensions: data quality and algorithmic design. We first expose critical quality issues in existing VTG benchmarks and introduce TimeLens-Bench, comprising meticulously re-annotated versions of three popular benchmarks with strict quality criteria. Our analysis reveals dramatic model re-rankings compared to legacy benchmarks, confirming the unreliability of prior evaluation standards. We also address noisy training data through an automated re-annotation pipeline, yielding TimeLens-100K, a large-scale, high-quality training dataset. Building on our data foundation, we conduct in-depth explorations of algorithmic design principles, yielding a series of meaningful insights and effective yet efficient practices. These include interleaved textual encoding for time representation, a thinking-free reinforcement learning with verifiable rewards (RLVR) approach as the training paradigm, and carefully designed recipes for RLVR training. These efforts culminate in TimeLens models, a family of MLLMs with state-of-the-art VTG performance among open-source models and even surpass proprietary models such as GPT-5 and Gemini-2.5-Flash. All codes, data, and models will be released to facilitate future research.
- Abstract(参考訳): 本稿では,ビデオ理解のコア機能であるビデオ時間グラウンドリング(VTG)において,新しい手法を導入するのではなく,単純かつ漸進的かつ必須のベースラインを確立する。
マルチモーダル大言語モデル(MLLM)は様々なビデオ理解タスクに優れるが、VTGのためにそれらを最適化するためのレシピは未検討のままである。
本稿では、データ品質とアルゴリズム設計の2つの主要な側面に沿って、強力なVTG能力を持つMLLMを構築するための体系的な調査であるTimeLensを提案する。
我々はまず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,厳格な品質基準を持つ3つのベンチマークの微妙な再注釈版を含むTimeLens-Benchを紹介した。
分析の結果,従来の評価基準の信頼性が低いことが確認された。
また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
データ基盤の上に構築し、アルゴリズム設計の原則を深く探究し、一連の意味のある洞察と効果的なプラクティスを生み出します。
これには、時間表現のためのインターリーブテキストエンコーディング、トレーニングパラダイムとしての検証可能な報酬(RLVR)アプローチによる思考自由強化学習、RLVRトレーニングのための慎重に設計されたレシピが含まれる。
これらの取り組みは、オープンソースのモデル間で最先端のVTG性能を持ち、GPT-5やGemini-2.5-Flashのようなプロプライエタリなモデルを超えるMLLMのファミリーであるTimeLensモデルで頂点に達した。
すべてのコード、データ、モデルは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - Datasets and Recipes for Video Temporal Grounding via Reinforcement Learning [9.8322406322074]
Video Temporal Groundingは、自然言語クエリが与えられたビデオに関連のある時間セグメントをローカライズすることを目的としている。
既存のアプローチは、時間的認識の制限と一般化の低さに悩まされることが多い。
教師付き微調整と強化学習を統合した2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T05:24:01Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。
しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。
データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文 参考訳(メタデータ) (2025-01-30T03:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。