論文の概要: An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2406.01604v1
- Date: Sat, 25 May 2024 07:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 15:59:42.228356
- Title: An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval
- Title(参考訳): ビデオテキスト検索のためのCLIP4Clipにおける励起・凝集設計適応に関する実証的研究
- Authors: Xiaolun Jing, Genke Yang, Jian Chu,
- Abstract要約: 本稿では,(1) フレーム特徴間の非相互排他的関係を捉えるための励起モジュールを含む,新しい励起・集約設計を提案する。
我々はシーケンシャルなモジュールとアグリゲーション設計のカスケードを用いて、シーケンシャルなビデオ表現を生成する。
提案するモジュールは,MSR-VTT,ActivityNet,DiDeMoの3つのベンチマークデータセットで評価される。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLIP4Clip model transferred from the CLIP has been the de-factor standard to solve the video clip retrieval task from frame-level input, triggering the surge of CLIP4Clip-based models in the video-text retrieval domain. In this work, we rethink the inherent limitation of widely-used mean pooling operation in the frame features aggregation and investigate the adaptions of excitation and aggregation design for discriminative video representation generation. We present a novel excitationand-aggregation design, including (1) The excitation module is available for capturing non-mutuallyexclusive relationships among frame features and achieving frame-wise features recalibration, and (2) The aggregation module is applied to learn exclusiveness used for frame representations aggregation. Similarly, we employ the cascade of sequential module and aggregation design to generate discriminative video representation in the sequential type. Besides, we adopt the excitation design in the tight type to obtain representative frame features for multi-modal interaction. The proposed modules are evaluated on three benchmark datasets of MSR-VTT, ActivityNet and DiDeMo, achieving MSR-VTT (43.9 R@1), ActivityNet (44.1 R@1) and DiDeMo (31.0 R@1). They outperform the CLIP4Clip results by +1.2% (+0.5%), +4.5% (+1.9%) and +9.5% (+2.7%) relative (absolute) improvements, demonstrating the superiority of our proposed excitation and aggregation designs. We hope our work will serve as an alternative for frame representations aggregation and facilitate future research.
- Abstract(参考訳): CLIPから移行したCLIP4Clipモデルは、フレームレベルの入力からビデオクリップ検索タスクを解決するためのデファクタ標準であり、ビデオテキスト検索ドメインにおけるCLIP4Clipベースのモデルの急増を引き起こしている。
本研究では,フレーム特徴集合における有意な平均プール動作の制限について再考し,識別ビデオ表現生成のための励起・集約設計の適用について検討する。
本稿では,(1)フレーム特徴間の非相互排他的関係を捕捉し,フレームワイド特徴の再分類を実現するための励起モジュールと,(2)フレーム表現集約に使用される排他性を学習するためにアグリゲーションモジュールを適用することを含む,新しい励起・集約設計を提案する。
同様に、シーケンシャルなモジュールとアグリゲーションの設計のカスケードを用いて、シーケンシャルなビデオ表現を生成する。
さらに,マルチモーダルインタラクションのための代表的なフレーム特徴を得るために,タイトな型での励起設計を採用する。
MSR-VTT、ActivityNet、DiDeMoの3つのベンチマークデータセットで評価を行い、MSR-VTT (43.9 R@1)、ActivityNet (44.1 R@1)、DiDeMo (31.0 R@1)を達成した。
CLIP4Clipの結果は+1.2%(+0.5%)、+4.5%(+1.9%)、+9.5%(+2.7%)の相対的(絶対的)改善に優れており、提案した励起および凝集設計の優位性を示している。
私たちの研究がフレーム表現アグリゲーションの代替として機能し、将来の研究を促進することを願っています。
関連論文リスト
- Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - CFR-ICL: Cascade-Forward Refinement with Iterative Click Loss for
Interactive Image Segmentation [2.482735440750151]
本稿では,3つの新しいコンポーネントを含むクリックベースおよびマスク誘導型インタラクティブ画像分割フレームワークを提案する。
提案フレームワークは,セグメント化結果を粗い方法で生成する統合推論フレームワークを提供する。
我々のモデルは33.2%減少し、15.5%は従来の最先端のアプローチで0.95のIoUを超えるのに必要なクリック数である。
論文 参考訳(メタデータ) (2023-03-09T23:20:35Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - PP-MSVSR: Multi-Stage Video Super-Resolution [4.039183755023383]
ビデオ超解法(VSR)タスクの鍵は、フレーム間の補完情報をフル活用して高解像度シーケンスを再構築することである。
PP-MSVSRと呼ばれる多段VSR深層構造を, 局所融合モジュール, 補助損失, 再配置モジュールを用いて提案する。
PP-MSVSRのPSNRは28.13dBであり、パラメータはわずか1.45Mである。
論文 参考訳(メタデータ) (2021-12-06T07:28:52Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。