論文の概要: TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
- arxiv url: http://arxiv.org/abs/2505.01583v1
- Date: Fri, 02 May 2025 21:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.183994
- Title: TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action
- Title(参考訳): TEMPURA:時事マスケ予測と行動推論の理解
- Authors: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang,
- Abstract要約: ビデオの時間的理解を高めるための2段階トレーニングフレームワークTEMPURAを提案する。
TEMPURAは、まずマスク付きイベント予測推論を適用して、欠落したイベントを再構築し、密集したイベントアノテーションからステップバイステップの因果説明を生成する。
私たちはVERでTEMPURAをトレーニングします。これは、100万のトレーニングインスタンスと500Kのビデオで構成され、時間的に整ったイベント記述と構造化された推論ステップで構成されています。
- 参考スコア(独自算出の注目度): 28.930109403769166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding causal event relationships and achieving fine-grained temporal grounding in videos remain challenging for vision-language models. Existing methods either compress video tokens to reduce temporal resolution, or treat videos as unsegmented streams, which obscures fine-grained event boundaries and limits the modeling of causal dependencies. We propose TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), a two-stage training framework that enhances video temporal understanding. TEMPURA first applies masked event prediction reasoning to reconstruct missing events and generate step-by-step causal explanations from dense event annotations, drawing inspiration from effective infilling techniques. TEMPURA then learns to perform video segmentation and dense captioning to decompose videos into non-overlapping events with detailed, timestamp-aligned descriptions. We train TEMPURA on VER, a large-scale dataset curated by us that comprises 1M training instances and 500K videos with temporally aligned event descriptions and structured reasoning steps. Experiments on temporal grounding and highlight detection benchmarks demonstrate that TEMPURA outperforms strong baseline models, confirming that integrating causal reasoning with fine-grained temporal segmentation leads to improved video understanding.
- Abstract(参考訳): 因果関係の理解とビデオにおける微粒な時間的グラウンドの実現は、視覚言語モデルでは依然として困難である。
既存の方法では、ビデオトークンを圧縮して時間分解を減少させるか、あるいはビデオを未分割ストリームとして扱うことで、きめ細かいイベント境界が曖昧になり、因果依存性のモデリングが制限される。
本稿では,ビデオの時間的理解を高める2段階のトレーニングフレームワークTEMPURAを提案する。
TEMPURAは、まずマスク付きイベント予測推論を適用して、欠落したイベントを再構築し、密集したイベントアノテーションからステップバイステップの因果説明を生成し、効果的なインフィル技術からインスピレーションを得る。
TEMPURAは、ビデオセグメンテーションと高密度キャプションを実行して、ビデオが重複しないイベントに分解され、詳細なタイムスタンプで記述される。
私たちはVERでTEMPURAをトレーニングします。これは、100万のトレーニングインスタンスと500Kのビデオで構成され、時間的に整ったイベント記述と構造化された推論ステップで構成されています。
時間的グラウンドとハイライト検出ベンチマークの実験により、TEMPURAは強力なベースラインモデルよりも優れており、因果推論と微細な時間的セグメンテーションを統合することで、ビデオ理解の改善につながることが確認された。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning [23.928977574352796]
新しいタスクとデータセットであるMulti-Event Causal Discovery (MECD)を導入する。
時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。
我々は,効率的なマスクベースの事象予測モデルを用いて,Granger Causality法にインスパイアされた新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2024-09-26T08:51:29Z) - EA-VTR: Event-Aware Video-Text Retrieval [97.30850809266725]
Event-Aware Video-Text Retrievalモデルは、優れたビデオイベント認識を通じて、強力なビデオテキスト検索能力を実現する。
EA-VTRはフレームレベルとビデオレベルの視覚表現を同時にエンコードすることができ、詳細なイベント内容と複雑なイベントの時間的相互アライメントを可能にする。
論文 参考訳(メタデータ) (2024-07-10T09:09:58Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - SPOT! Revisiting Video-Language Models for Event Understanding [31.49859545456809]
本稿では,既存のビデオ言語モデルのイベントレベルの相違点を識別する能力のベンチマークを行うSPOT Proberを紹介する。
これらの正負のキャプションで既存のビデオ言語モデルを評価した結果、操作されたイベントのほとんどを区別できないことがわかった。
そこで本研究では,これらの操作したイベントキャプションをハードネガティブなサンプルとしてプラグインし,イベント理解モデルの改善に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-21T18:43:07Z) - EGVD: Event-Guided Video Deraining [57.59935209162314]
本稿では,ビデオデライニングのためのイベントカメラの可能性を解放するエンド・ツー・エンドの学習ネットワークを提案する。
雨の多いビデオと時間的に同期されたイベントストリームからなる現実世界のデータセットを構築します。
論文 参考訳(メタデータ) (2023-09-29T13:47:53Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。