論文の概要: TimeRefine: Temporal Grounding with Time Refining Video LLM
- arxiv url: http://arxiv.org/abs/2412.09601v1
- Date: Thu, 12 Dec 2024 18:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:47.958653
- Title: TimeRefine: Temporal Grounding with Time Refining Video LLM
- Title(参考訳): TimeRefine: Time Refining Video LLMによる時間的グラウンド
- Authors: Xizi Wang, Feng Cheng, Ziyang Wang, Huiyu Wang, Md Mohaiminul Islam, Lorenzo Torresani, Mohit Bansal, Gedas Bertasius, David Crandall,
- Abstract要約: ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
我々は時間的接地タスクを時間的精錬タスクとして再構成する。
我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
- 参考スコア(独自算出の注目度): 75.99665302872901
- License:
- Abstract: Video temporal grounding aims to localize relevant temporal boundaries in a video given a textual prompt. Recent work has focused on enabling Video LLMs to perform video temporal grounding via next-token prediction of temporal timestamps. However, accurately localizing timestamps in videos remains challenging for Video LLMs when relying solely on temporal token prediction. Our proposed TimeRefine addresses this challenge in two ways. First, instead of directly predicting the start and end timestamps, we reformulate the temporal grounding task as a temporal refining task: the model first makes rough predictions and then refines them by predicting offsets to the target segment. This refining process is repeated multiple times, through which the model progressively self-improves its temporal localization accuracy. Second, to enhance the model's temporal perception capabilities, we incorporate an auxiliary prediction head that penalizes the model more if a predicted segment deviates further from the ground truth, thus encouraging the model to make closer and more accurate predictions. Our plug-and-play method can be integrated into most LLM-based temporal grounding approaches. The experimental results demonstrate that TimeRefine achieves 3.6% and 5.0% mIoU improvements on the ActivityNet and Charades-STA datasets, respectively. Code and pretrained models will be released.
- Abstract(参考訳): ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。
最近の研究は、ビデオLLMが時間的タイムスタンプの次々に予測することで、ビデオの時間的グラウンド化を可能にすることに重点を置いている。
しかし、ビデオのタイムスタンプの正確なローカライズは、時間的トークン予測のみに依存する場合、ビデオLLMでは難しいままである。
提案したTimeRefineでは,この課題を2つの方法で解決しています。
まず、始点と終点のタイムスタンプを直接予測する代わりに、時間的接地タスクを時間的精製タスクとして再構成する。
この精製プロセスは何度も繰り返され、モデルが時間的局所化の精度を徐々に改善する。
第二に、モデルの時間知覚能力を高めるために、予測セグメントが地上の真実からさらに逸脱した場合に、モデルをよりペナルティ化する補助予測ヘッドを組み込むことにより、モデルがより近く、より正確な予測を行うように促す。
我々のプラグイン・アンド・プレイ法は、ほとんどのLCMベースの時間的接地手法に統合できる。
実験の結果、TimeRefineはActivityNetとCharades-STAデータセットでそれぞれ3.6%と5.0%mIoUの改善を達成した。
コードと事前訓練されたモデルがリリースされる。
関連論文リスト
- Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - AutoTimes: Autoregressive Time Series Forecasters via Large Language Models [67.83502953961505]
AutoTimesは時系列を言語トークンの埋め込み空間に投影し、任意の長さで将来予測を生成する。
時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。
AutoTimesは、トレーニング可能なパラメータが0.1%、トレーニング/推論のスピードアップが5ドル以上で最先端を実現している。
論文 参考訳(メタデータ) (2024-02-04T06:59:21Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Split Time Series into Patches: Rethinking Long-term Series Forecasting
with Dateformer [17.454822366228335]
時間は時系列の最も重要な特徴の1つだが、あまり注目されていない。
本稿では、上記のプラクティスに従うのではなく、モデリング時間に注意を向けるDateformerを提案する。
ディザフォーマーは、40%の顕著な相対的な改善で最先端の精度を達成し、最大信頼性予測範囲を半年レベルに拡大する。
論文 参考訳(メタデータ) (2022-07-12T08:58:44Z) - EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation [10.799980374791316]
時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
論文 参考訳(メタデータ) (2021-09-10T00:30:36Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。