論文の概要: VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding
- arxiv url: http://arxiv.org/abs/2410.08593v1
- Date: Fri, 11 Oct 2024 07:42:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:04:57.353671
- Title: VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding
- Title(参考訳): ビデオコーパスモーメント検索ベンチマーク「VERIFIED」
- Authors: Houlun Chen, Xin Wang, Hong Chen, Zeyang Zhang, Wei Feng, Bin Huang, Jia Jia, Wenwu Zhu,
- Abstract要約: 既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。
本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。
VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
- 参考スコア(独自算出の注目度): 44.382937324454254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Video Corpus Moment Retrieval (VCMR) is limited to coarse-grained understanding, which hinders precise video moment localization when given fine-grained queries. In this paper, we propose a more challenging fine-grained VCMR benchmark requiring methods to localize the best-matched moment from the corpus with other partially matched candidates. To improve the dataset construction efficiency and guarantee high-quality data annotations, we propose VERIFIED, an automatic \underline{V}id\underline{E}o-text annotation pipeline to generate captions with \underline{R}el\underline{I}able \underline{FI}n\underline{E}-grained statics and \underline{D}ynamics. Specifically, we resort to large language models (LLM) and large multimodal models (LMM) with our proposed Statics and Dynamics Enhanced Captioning modules to generate diverse fine-grained captions for each video. To filter out the inaccurate annotations caused by the LLM hallucination, we propose a Fine-Granularity Aware Noise Evaluator where we fine-tune a video foundation model with disturbed hard-negatives augmented contrastive and matching losses. With VERIFIED, we construct a more challenging fine-grained VCMR benchmark containing Charades-FIG, DiDeMo-FIG, and ActivityNet-FIG which demonstrate a high level of annotation quality. We evaluate several state-of-the-art VCMR models on the proposed dataset, revealing that there is still significant scope for fine-grained video understanding in VCMR. Code and Datasets are in \href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED}.
- Abstract(参考訳): 既存のビデオコーパスモーメント検索(VCMR)は粗大な理解に限られており、きめ細かいクエリが与えられたときの正確なビデオモーメントのローカライゼーションを妨げる。
本稿では,より難易度の高いVCMRベンチマークを提案する。
データセット構築の効率を改善し,高品質なデータアノテーションを保証するために, VERIFIEDを提案する。これは, \underline{R}el\underline{I}able \underline{FI}n\underline{E}-grand statics と \underline{D}ynamics を用いたキャプションを生成するための,自動 \underline{V}id\underline{E}o-text アノテーションパイプラインである。
具体的には,大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) に代えて,ビデオ毎に様々な細粒度キャプションを生成する静的・ダイナミクス拡張キャプションモジュールを提案する。
LLMの幻覚による不正確なアノテーションをフィルタリングするために,不規則なハードネガティブを付加したビデオ基礎モデルを微調整するファイングラニュラリティ・アウェアノイズ評価器を提案する。
VERIFIEDを用いて、高レベルのアノテーション品質を示すCharades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
提案したデータセット上で、いくつかの最先端VCMRモデルを評価し、VCMRの微細なビデオ理解には依然としてかなりの範囲があることを明らかにする。
コードとデータセットは \href{https://github.com/hlchen23/VERIFIED}{https://github.com/hlchen23/VERIFIED} にある。
関連論文リスト
- Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency [4.922783970210658]
我々はSora-era AIGCビデオの評価のためにtextbfCRAVE (underlineContent-underlineRich underlineAIGC underlineAIGC underlineEvaluator) を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:24Z) - Fine-grained Video-Text Retrieval: A New Benchmark and Method [25.2967056489715]
FIBERは,FineActionデータセットから生成した1,000本のビデオを含むビデオ検索に,テキスト用の微細なbenchmarkである。
FIBERベンチマークでは,ビデオ毎の詳細な空間アノテーションと時間アノテーションが提供されている。
実験の結果,従来のベンチマークにおいて,ビデオ大言語(VLLE)はCLIPベースのモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval [60.70901959953688]
本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。
クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。
そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
論文 参考訳(メタデータ) (2024-05-22T16:55:31Z) - Context-Enhanced Video Moment Retrieval with Large Language Models [22.283367604425916]
ビデオモーメント検索(VMR)の現在の手法は、特定の環境詳細、キャラクター記述、アクション物語を含む複雑な状況の整合に苦慮している。
本稿では,LMR(Large Language Model-Guided Moment Retrieval)アプローチを提案する。
大規模な実験により、LMRは最先端の結果を達成し、挑戦的なQVHighlightsとCharades-STAベンチマークにおいて、最も近い競合相手を3.28%、そして4.06%で上回った。
論文 参考訳(メタデータ) (2024-05-21T07:12:27Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。