論文の概要: VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models
- arxiv url: http://arxiv.org/abs/2504.03970v2
- Date: Thu, 10 Apr 2025 10:41:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:25:13.821770
- Title: VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models
- Title(参考訳): VideoComp:ビデオテキストモデルにおける細粒度合成と時間アライメントの改善
- Authors: Dahun Kim, AJ Piergiovanni, Ganesh Mallya, Anelia Angelova,
- Abstract要約: VideoCompは、ビデオテキストの構成性を理解するためのベンチマークおよび学習フレームワークである。
我々は,再順序付け,行動語置換,部分的字幕化,複合的ディスラプションなどの微妙な時間的破壊を伴う挑戦的な負のサンプルを作成する。
これらのベンチマークは、拡張された凝集性ビデオテキストシーケンスにわたるモデルの構成感度を包括的にテストする。
- 参考スコア(独自算出の注目度): 48.00262713744499
- License:
- Abstract: We introduce VideoComp, a benchmark and learning framework for advancing video-text compositionality understanding, aimed at improving vision-language models (VLMs) in fine-grained temporal alignment. Unlike existing benchmarks focused on static image-text compositionality or isolated single-event videos, our benchmark targets alignment in continuous multi-event videos. Leveraging video-text datasets with temporally localized event captions (e.g. ActivityNet-Captions, YouCook2), we construct two compositional benchmarks, ActivityNet-Comp and YouCook2-Comp. We create challenging negative samples with subtle temporal disruptions such as reordering, action word replacement, partial captioning, and combined disruptions. These benchmarks comprehensively test models' compositional sensitivity across extended, cohesive video-text sequences. To improve model performance, we propose a hierarchical pairwise preference loss that strengthens alignment with temporally accurate pairs and gradually penalizes increasingly disrupted ones, encouraging fine-grained compositional learning. To mitigate the limited availability of densely annotated video data, we introduce a pretraining strategy that concatenates short video-caption pairs to simulate multi-event sequences. We evaluate video-text foundational models and large multimodal models (LMMs) on our benchmark, identifying both strengths and areas for improvement in compositionality. Overall, our work provides a comprehensive framework for evaluating and enhancing model capabilities in achieving fine-grained, temporally coherent video-text alignment.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)を微粒な時間的アライメントで改善することを目的とした,ビデオテキスト合成理解の促進のためのベンチマークおよび学習フレームワークであるVideoCompを紹介する。
静的な画像テキスト合成や孤立した単一イベントビデオに焦点を当てた既存のベンチマークとは異なり、ベンチマークは連続したマルチイベントビデオのアライメントを目標としています。
時間的局所化されたイベントキャプションを備えたビデオテキストデータセット(例えば ActivityNet-Captions, YouCook2)を利用することで、ActivityNet-Comp と YouCook2-Comp という2つのコンポジションベンチマークを構築します。
我々は,再順序付け,行動語置換,部分的字幕化,複合的ディスラプションなどの微妙な時間的破壊を伴う挑戦的な負のサンプルを作成する。
これらのベンチマークは、拡張された凝集性ビデオテキストシーケンスにわたるモデルの構成感度を包括的にテストする。
モデル性能を向上させるために,時間的精度の高いペアとのアライメントを強化し,次第に混乱するペアをペナルティ化し,よりきめ細かい構成学習を促す階層的なペアワイズ選好損失を提案する。
濃密な注釈付きビデオデータの可用性を損なうため,複数イベント列をシミュレートするために,短いビデオキャプションペアを連結する事前学習戦略を導入する。
我々は,ビデオテキスト基礎モデルと大規模マルチモーダルモデル(LMM)をベンチマークで評価し,構成性の向上のための長所と短所を同定した。
全体として、我々の研究は、きめ細かい時間的コヒーレントなビデオテキストアライメントを実現するための、モデル機能の評価と強化のための包括的なフレームワークを提供する。
関連論文リスト
- Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。