論文の概要: GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2405.13824v1
- Date: Wed, 22 May 2024 16:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:05:13.692848
- Title: GMMFormer v2: An Uncertainty-aware Framework for Partially Relevant Video Retrieval
- Title(参考訳): GMMFormer v2: 部分的に関連のあるビデオ検索のための不確実性認識フレームワーク
- Authors: Yuting Wang, Jinpeng Wang, Bin Chen, Tao Dai, Ruisheng Luo, Shu-Tao Xia,
- Abstract要約: 本稿では,PRVRのための不確実性認識フレームワークであるGMMFormer v2を提案する。
クリップモデリングでは,新しい時間的統合モジュールを用いた強力なベースラインGMMFormerを改良する。
そこで本研究では,テキスト・クリップの微調整に最適なマッチング損失を提案する。
- 参考スコア(独自算出の注目度): 60.70901959953688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a text query, partially relevant video retrieval (PRVR) aims to retrieve untrimmed videos containing relevant moments. Due to the lack of moment annotations, the uncertainty lying in clip modeling and text-clip correspondence leads to major challenges. Despite the great progress, existing solutions either sacrifice efficiency or efficacy to capture varying and uncertain video moments. What's worse, few methods have paid attention to the text-clip matching pattern under such uncertainty, exposing the risk of semantic collapse. To address these issues, we present GMMFormer v2, an uncertainty-aware framework for PRVR. For clip modeling, we improve a strong baseline GMMFormer with a novel temporal consolidation module upon multi-scale contextual features, which maintains efficiency and improves the perception for varying moments. To achieve uncertainty-aware text-clip matching, we upgrade the query diverse loss in GMMFormer to facilitate fine-grained uniformity and propose a novel optimal matching loss for fine-grained text-clip alignment. Their collaboration alleviates the semantic collapse phenomenon and neatly promotes accurate correspondence between texts and moments. We conduct extensive experiments and ablation studies on three PRVR benchmarks, demonstrating remarkable improvement of GMMFormer v2 compared to the past SOTA competitor and the versatility of uncertainty-aware text-clip matching for PRVR. Code is available at \url{https://github.com/huangmozhi9527/GMMFormer_v2}.
- Abstract(参考訳): テキストクエリが与えられた場合、部分的関連ビデオ検索(PRVR)は、関連する瞬間を含む未トリミングビデオの検索を目的としている。
モーメントアノテーションが欠如しているため、クリップモデリングとテキストクリップ対応の不確実性は大きな課題に繋がる。
大きな進歩にもかかわらず、既存のソリューションは効率を犠牲にするか、様々な不確実なビデオモーメントをキャプチャする効果を犠牲にする。
さらに悪いことに、このような不確実性の下でテキスト-クリップマッチングパターンに注意を払っているメソッドはほとんどなく、セマンティック崩壊のリスクを露呈している。
これらの問題に対処するため,PRVRのための不確実性対応フレームワークであるGMMFormer v2を提案する。
クリップ・モデリングでは,マルチスケールの文脈的特徴に基づく新しい時間的統合モジュールによる強力なベースラインGMMFormerを改良し,効率を向上し,様々なモーメントに対する知覚を向上させる。
不確実性を認識したテキスト-クリップマッチングを実現するため,GMMFormerにおけるクエリの多彩な損失を改良し,微細なテキスト-クリップアライメントのための新たな最適マッチング損失を提案する。
彼らのコラボレーションは意味的崩壊現象を緩和し、テキストと瞬間の正確な対応を促進する。
我々は,3つのPRVRベンチマークに関する広範な実験とアブレーション研究を行い,従来のSOTAコンペティタと比較してGMMFormer v2の顕著な改善と,PRVR用不確実性対応テキストクリップマッチングの汎用性を実証した。
コードは \url{https://github.com/huangmozhi9527/GMMFormer_v2} で公開されている。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - VERIFIED: A Video Corpus Moment Retrieval Benchmark for Fine-Grained Video Understanding [44.382937324454254]
既存のビデオコーパスモーメント検索(VCMR)は、粗大な理解に限られている。
本稿では,コーパスからベストマッチングモーメントをローカライズするために,より難易度の高いVCMRベンチマークを提案する。
VERIFIEDを用いて、Charades-FIG、DiDeMo-FIG、ActivityNet-FIGを含むより難易度の高いVCMRベンチマークを構築する。
論文 参考訳(メタデータ) (2024-10-11T07:42:36Z) - Generative Video Diffusion for Unseen Cross-Domain Video Moment
Retrieval [58.17315970207874]
ビデオモーメント検索(VMR)では、複雑な視覚言語関係を捉えるために、微細なモーメントテキスト関連を正確にモデル化する必要がある。
既存の手法は、クロスドメインアプリケーションのためのソースとターゲットのドメインビデオの両方のジョイントトレーニングを利用する。
対象の文によって制御されるソースビデオのきめ細かい編集のための生成的ビデオ拡散について検討する。
論文 参考訳(メタデータ) (2024-01-24T09:45:40Z) - Towards Balanced Alignment: Modal-Enhanced Semantic Modeling for Video
Moment Retrieval [31.42856682276394]
Video Moment Retrieval (VMR) は、与えられた言語クエリに対応する未トリミングビデオの時間セグメントを検索することを目的としている。
既存の戦略は、モダリティの不均衡問題を無視するため、しばしば準最適である。
我々は、よりバランスの取れたアライメントのための新しいフレームワークである、Modal-Enhanced Semantic Modeling (MESM)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T13:38:48Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。