Fugu-MT 論文翻訳(概要): TimeRefine: Temporal Grounding with Time Refining Video LLM

論文の概要: TimeRefine: Temporal Grounding with Time Refining Video LLM

arxiv url: http://arxiv.org/abs/2412.09601v1
Date: Thu, 12 Dec 2024 18:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.476067
Title: TimeRefine: Temporal Grounding with Time Refining Video LLM
Title（参考訳）: TimeRefine: Time Refining Video LLMによる時間的グラウンド
Authors: Xizi Wang, Feng Cheng, Ziyang Wang, Huiyu Wang, Md Mohaiminul Islam, Lorenzo Torresani, Mohit Bansal, Gedas Bertasius, David Crandall,
Abstract要約: ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。我々は時間的接地タスクを時間的精錬タスクとして再構成する。我々は、予測セグメントが基底真理からさらに逸脱した場合、モデルをよりペナルティ化する補助予測ヘッドを組み込む。
参考スコア（独自算出の注目度）: 75.99665302872901
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video temporal grounding aims to localize relevant temporal boundaries in a video given a textual prompt. Recent work has focused on enabling Video LLMs to perform video temporal grounding via next-token prediction of temporal timestamps. However, accurately localizing timestamps in videos remains challenging for Video LLMs when relying solely on temporal token prediction. Our proposed TimeRefine addresses this challenge in two ways. First, instead of directly predicting the start and end timestamps, we reformulate the temporal grounding task as a temporal refining task: the model first makes rough predictions and then refines them by predicting offsets to the target segment. This refining process is repeated multiple times, through which the model progressively self-improves its temporal localization accuracy. Second, to enhance the model's temporal perception capabilities, we incorporate an auxiliary prediction head that penalizes the model more if a predicted segment deviates further from the ground truth, thus encouraging the model to make closer and more accurate predictions. Our plug-and-play method can be integrated into most LLM-based temporal grounding approaches. The experimental results demonstrate that TimeRefine achieves 3.6% and 5.0% mIoU improvements on the ActivityNet and Charades-STA datasets, respectively. Code and pretrained models will be released.
Abstract（参考訳）: ビデオの時間的接地は、テキストのプロンプトが与えられたビデオの中で、関連する時間的境界をローカライズすることを目的としている。最近の研究は、ビデオLLMが時間的タイムスタンプの次々に予測することで、ビデオの時間的グラウンド化を可能にすることに重点を置いている。しかし、ビデオのタイムスタンプの正確なローカライズは、時間的トークン予測のみに依存する場合、ビデオLLMでは難しいままである。提案したTimeRefineでは,この課題を2つの方法で解決しています。まず、始点と終点のタイムスタンプを直接予測する代わりに、時間的接地タスクを時間的精製タスクとして再構成する。この精製プロセスは何度も繰り返され、モデルが時間的局所化の精度を徐々に改善する。第二に、モデルの時間知覚能力を高めるために、予測セグメントが地上の真実からさらに逸脱した場合に、モデルをよりペナルティ化する補助予測ヘッドを組み込むことにより、モデルがより近く、より正確な予測を行うように促す。我々のプラグイン・アンド・プレイ法は、ほとんどのLCMベースの時間的接地手法に統合できる。実験の結果、TimeRefineはActivityNetとCharades-STAデータセットでそれぞれ3.6%と5.0%mIoUの改善を達成した。コードと事前訓練されたモデルがリリースされる。

関連論文リスト

Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文参考訳（メタデータ） (2025-10-19T22:12:45Z)
Not in Sync: Unveiling Temporal Bias in Audio Chat Models [59.146710538620816]
大規模音声言語モデル(LALM)は、音声理解やマルチモーダル推論にますます応用されている。 LALMにおける時間バイアスに関する最初の体系的研究を行い,その時間スタンプ予測における重要な限界を明らかにした。
論文参考訳（メタデータ） (2025-10-14T06:29:40Z)
Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文参考訳（メタデータ） (2025-10-04T21:48:40Z)
Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文参考訳（メタデータ） (2025-07-07T06:51:40Z)
Iterative Zoom-In: Temporal Interval Exploration for Long Video Understanding [18.027290155746112]
時間探索(Temporal Search)は、MLLMが時間領域を探索し、長いビデオの理解を反復的に改善する訓練不要のフレームワークである。モデルの生成信頼度は、時間間隔によって異なるため、予測精度と高い相関関係がある。よりきめ細かな時間間隔に注意を移し、長いビデオの理解を深めることで、モデルの焦点を洗練させる。
論文参考訳（メタデータ） (2025-06-28T15:24:05Z)
Temporal Preference Optimization for Long-Form Video Understanding [28.623353303256653]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。 TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。 LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文参考訳（メタデータ） (2025-01-23T18:58:03Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。 CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-03-12T04:04:38Z)
Multi-Patch Prediction: Adapting LLMs for Time Series Representation Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文参考訳（メタデータ） (2024-02-07T13:51:26Z)
AutoTimes: Autoregressive Time Series Forecasters via Large Language Models [67.83502953961505]
AutoTimesは時系列を言語トークンの埋め込み空間に投影し、任意の長さで将来予測を生成する。時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。 AutoTimesは、トレーニング可能なパラメータが0.1%、トレーニング/推論のスピードアップが5ドル以上で最先端を実現している。
論文参考訳（メタデータ） (2024-02-04T06:59:21Z)
MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。 MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。 MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文参考訳（メタデータ） (2023-07-06T09:12:13Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Split Time Series into Patches: Rethinking Long-term Series Forecasting with Dateformer [17.454822366228335]
時間は時系列の最も重要な特徴の1つだが、あまり注目されていない。本稿では、上記のプラクティスに従うのではなく、モデリング時間に注意を向けるDateformerを提案する。ディザフォーマーは、40%の顕著な相対的な改善で最先端の精度を達成し、最大信頼性予測範囲を半年レベルに拡大する。
論文参考訳（メタデータ） (2022-07-12T08:58:44Z)
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation [10.799980374791316]
時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
論文参考訳（メタデータ） (2021-09-10T00:30:36Z)
Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文参考訳（メタデータ） (2021-06-03T01:33:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。