論文の概要: A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval
- arxiv url: http://arxiv.org/abs/2208.02080v1
- Date: Wed, 3 Aug 2022 14:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:54:42.527117
- Title: A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval
- Title(参考訳): テキスト検索のための特徴空間マルチモーダルデータ拡張手法
- Authors: Alex Falcon and Giuseppe Serra and Oswald Lanz
- Abstract要約: 近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 16.548016892117083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every hour, huge amounts of visual contents are posted on social media and
user-generated content platforms. To find relevant videos by means of a natural
language query, text-video retrieval methods have received increased attention
over the past few years. Data augmentation techniques were introduced to
increase the performance on unseen test examples by creating new training
samples with the application of semantics-preserving techniques, such as color
space or geometric transformations on images. Yet, these techniques are usually
applied on raw data, leading to more resource-demanding solutions and also
requiring the shareability of the raw data, which may not always be true, e.g.
copyright issues with clips from movies or TV series. To address this
shortcoming, we propose a multimodal data augmentation technique which works in
the feature space and creates new videos and captions by mixing semantically
similar samples. We experiment our solution on a large scale public dataset,
EPIC-Kitchens-100, and achieve considerable improvements over a baseline
method, improved state-of-the-art performance, while at the same time
performing multiple ablation studies. We release code and pretrained models on
Github at https://github.com/aranciokov/FSMMDA_VideoRetrieval.
- Abstract(参考訳): 毎時、膨大な量のビジュアルコンテンツがソーシャルメディアやユーザー生成コンテンツプラットフォームに投稿される。
自然言語による問合せにより関連映像を見つけるため,過去数年間,テキスト・ビデオ検索手法が注目されている。
色空間や画像上の幾何学的変換といった意味論的保存手法を応用し、新しいトレーニングサンプルを作成することにより、見えないテスト例のパフォーマンスを向上させるためにデータ拡張技術が導入された。
しかし、これらの技術は通常、生データに適用され、より多くのリソース要求のソリューションと生データの共有性が必要となり、映画やテレビシリーズのクリップの著作権問題など、必ずしも真実ではないかもしれない。
この欠点に対処するために,特徴空間で動作し,意味的に類似したサンプルを混合して新たなビデオやキャプションを作成するマルチモーダルデータ拡張手法を提案する。
我々は,大規模なパブリックデータセットEPIC-Kitchens-100で実験を行い,ベースライン法よりも大幅に改善され,最先端の性能が向上し,同時に複数のアブレーション研究を行った。
私たちはgithubでコードと事前トレーニング済みモデルをhttps://github.com/aranciokov/fsmmda_videoretrieval.comでリリースしています。
関連論文リスト
- HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models [11.883785732720094]
本稿では,ビデオとテキストデータを拡張して,より一般化された特徴を学習する,新しいビデオテキスト学習パラダイムHaVTRを提案する。
映像やテキストにリッチな情報をもたらすために,幻覚に基づく拡張手法を提案する。
リッチなデータから、いくつかのビデオテキスト検索ベンチマークで広範な実験を行い、既存の手法よりもHaVTRの方が優れていることを示した。
論文 参考訳(メタデータ) (2024-04-07T21:46:47Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。