論文の概要: A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval
- arxiv url: http://arxiv.org/abs/2208.02080v1
- Date: Wed, 3 Aug 2022 14:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:54:42.527117
- Title: A Feature-space Multimodal Data Augmentation Technique for Text-video
Retrieval
- Title(参考訳): テキスト検索のための特徴空間マルチモーダルデータ拡張手法
- Authors: Alex Falcon and Giuseppe Serra and Oswald Lanz
- Abstract要約: 近年,テキストビデオ検索手法が注目されている。
データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。
特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 16.548016892117083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every hour, huge amounts of visual contents are posted on social media and
user-generated content platforms. To find relevant videos by means of a natural
language query, text-video retrieval methods have received increased attention
over the past few years. Data augmentation techniques were introduced to
increase the performance on unseen test examples by creating new training
samples with the application of semantics-preserving techniques, such as color
space or geometric transformations on images. Yet, these techniques are usually
applied on raw data, leading to more resource-demanding solutions and also
requiring the shareability of the raw data, which may not always be true, e.g.
copyright issues with clips from movies or TV series. To address this
shortcoming, we propose a multimodal data augmentation technique which works in
the feature space and creates new videos and captions by mixing semantically
similar samples. We experiment our solution on a large scale public dataset,
EPIC-Kitchens-100, and achieve considerable improvements over a baseline
method, improved state-of-the-art performance, while at the same time
performing multiple ablation studies. We release code and pretrained models on
Github at https://github.com/aranciokov/FSMMDA_VideoRetrieval.
- Abstract(参考訳): 毎時、膨大な量のビジュアルコンテンツがソーシャルメディアやユーザー生成コンテンツプラットフォームに投稿される。
自然言語による問合せにより関連映像を見つけるため,過去数年間,テキスト・ビデオ検索手法が注目されている。
色空間や画像上の幾何学的変換といった意味論的保存手法を応用し、新しいトレーニングサンプルを作成することにより、見えないテスト例のパフォーマンスを向上させるためにデータ拡張技術が導入された。
しかし、これらの技術は通常、生データに適用され、より多くのリソース要求のソリューションと生データの共有性が必要となり、映画やテレビシリーズのクリップの著作権問題など、必ずしも真実ではないかもしれない。
この欠点に対処するために,特徴空間で動作し,意味的に類似したサンプルを混合して新たなビデオやキャプションを作成するマルチモーダルデータ拡張手法を提案する。
我々は,大規模なパブリックデータセットEPIC-Kitchens-100で実験を行い,ベースライン法よりも大幅に改善され,最先端の性能が向上し,同時に複数のアブレーション研究を行った。
私たちはgithubでコードと事前トレーニング済みモデルをhttps://github.com/aranciokov/fsmmda_videoretrieval.comでリリースしています。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。