論文の概要: Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual
Softmax Loss
- arxiv url: http://arxiv.org/abs/2109.04290v1
- Date: Thu, 9 Sep 2021 14:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:14:10.673089
- Title: Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual
Softmax Loss
- Title(参考訳): マルチストリームコーパスアライメントとデュアルソフトマックスロスによるビデオテキスト検索の改善
- Authors: Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, Dong Shen
- Abstract要約: 本稿では,CAMoE (Single Gate Mixture-of-Experts) と新しいDual Softmax Loss (DSL) を用いたマルチストリームコーパスアライメントネットワークを提案する。
提案したCAMoEとDSLは高い効率性を有し,それぞれがMSR-VTT, MSVD, LSMDC などのベンチマークで個別に State-of-The-Art (SOTA) を達成することができる。
- 参考スコア(独自算出の注目度): 19.09368856300847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Employing large-scale pre-trained model CLIP to conduct video-text retrieval
task (VTR) has become a new trend, which exceeds previous VTR methods. Though,
due to the heterogeneity of structures and contents between video and text,
previous CLIP-based models are prone to overfitting in the training phase,
resulting in relatively poor retrieval performance. In this paper, we propose a
multi-stream Corpus Alignment network with single gate Mixture-of-Experts
(CAMoE) and a novel Dual Softmax Loss (DSL) to solve the two heterogeneity. The
CAMoE employs Mixture-of-Experts (MoE) to extract multi-perspective video
representations, including action, entity, scene, etc., then align them with
the corresponding part of the text. In this stage, we conduct massive
explorations towards the feature extraction module and feature alignment
module. DSL is proposed to avoid the one-way optimum-match which occurs in
previous contrastive methods. Introducing the intrinsic prior of each pair in a
batch, DSL serves as a reviser to correct the similarity matrix and achieves
the dual optimal match. DSL is easy to implement with only one-line code but
improves significantly. The results show that the proposed CAMoE and DSL are of
strong efficiency, and each of them is capable of achieving State-of-The-Art
(SOTA) individually on various benchmarks such as MSR-VTT, MSVD, and LSMDC.
Further, with both of them, the performance is advanced to a big extend,
surpassing the previous SOTA methods for around 4.6\% R@1 in MSR-VTT.
- Abstract(参考訳): 大規模な事前学習モデルCLIPを用いてビデオテキスト検索タスク(VTR)を実行することが,従来のVTR手法を上回る新たなトレンドとなっている。
しかし,映像とテキスト間の構造や内容の多様性から,従来のクリップベースモデルではトレーニング段階で過度に適合する傾向にあり,検索性能が比較的低かった。
本稿では,2つの不均一性を解決するために,単一ゲート混合専門家 (camoe) と新しいデュアルソフトマックス損失 (dsl) を持つマルチストリームコーパスアライメントネットワークを提案する。
CAMoEはMixture-of-Experts (MoE)を使用して、アクション、エンティティ、シーンなどを含む多視点のビデオ表現を抽出し、テキストの対応する部分と整列する。
この段階では,特徴抽出モジュールと特徴アライメントモジュールに対して大規模な探索を行う。
従来のコントラスト法で発生する一方向最適マッチングを回避するためにDSLを提案する。
それぞれのペアの本質的な事前をバッチで導入すると、DSLは類似性マトリクスを修正するリバイザとして機能し、双対最適マッチングを達成する。
DSLは1行のコードだけで簡単に実装できますが、大幅に改善されます。
その結果,提案したCAMoE と DSL は高い効率性を示し,それぞれが MSR-VTT,MSVD,LSMDC などの様々なベンチマークで State-of-The-Art (SOTA) を個別に達成可能であることがわかった。
さらに、両者とも、MSR-VTTにおいて従来のSOTA法を約4.6\% R@1で上回り、大幅な性能向上を実現している。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Sinkhorn Transformations for Single-Query Postprocessing in Text-Video
Retrieval [48.05270637946454]
この研究は、Sinkhorn変換に基づく新しい後処理アプローチを導入し、DSLを上回ります。
提案手法は,CLIP4Clip,BLIP,X-CLIP,DRLなどのアートモデルの状態を有意に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-14T13:20:23Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - End-to-End Rate-Distortion Optimized Learned Hierarchical Bi-Directional
Video Compression [10.885590093103344]
学習VCは、非線形変換、運動、エントロピーモデルのエンドツーエンドの速度歪み(R-D)最適化トレーニングを同時に行うことができる。
本稿では,階層型モーションサンプリングとエンドツーエンド最適化の利点を組み合わせた,学習型階層型双方向ビデオ(LHBDC)を提案する。
論文 参考訳(メタデータ) (2021-12-17T14:30:22Z) - End-to-end Neural Video Coding Using a Compound Spatiotemporal
Representation [33.54844063875569]
本稿では,2つの手法により生成された予測を適応的に組み合わせたハイブリッド動作補償法を提案する。
具体的には、リカレント情報集約(RIA)モジュールを用いて、複合時間表現(STR)を生成する。
さらに、ベクトルベースの再サンプリング、適応カーネルベースの再サンプリング、補償モード選択マップ、テクスチャ拡張を含む、CSTRから複数の予測を生成する1対多デコーダパイプラインを設計する。
論文 参考訳(メタデータ) (2021-08-05T19:43:32Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。