Fugu-MT 論文翻訳(概要): A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval

論文の概要: A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval

arxiv url: http://arxiv.org/abs/2208.02080v1
Date: Wed, 3 Aug 2022 14:05:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-04 13:54:42.527117
Title: A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval
Title（参考訳）: テキスト検索のための特徴空間マルチモーダルデータ拡張手法
Authors: Alex Falcon and Giuseppe Serra and Oswald Lanz
Abstract要約: 近年,テキストビデオ検索手法が注目されている。データ拡張技術は、目に見えないテスト例のパフォーマンスを向上させるために導入された。特徴空間で機能し,意味的に類似したサンプルを混合して新しいビデオやキャプションを生成するマルチモーダルデータ拡張手法を提案する。
参考スコア（独自算出の注目度）: 16.548016892117083
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Every hour, huge amounts of visual contents are posted on social media and user-generated content platforms. To find relevant videos by means of a natural language query, text-video retrieval methods have received increased attention over the past few years. Data augmentation techniques were introduced to increase the performance on unseen test examples by creating new training samples with the application of semantics-preserving techniques, such as color space or geometric transformations on images. Yet, these techniques are usually applied on raw data, leading to more resource-demanding solutions and also requiring the shareability of the raw data, which may not always be true, e.g. copyright issues with clips from movies or TV series. To address this shortcoming, we propose a multimodal data augmentation technique which works in the feature space and creates new videos and captions by mixing semantically similar samples. We experiment our solution on a large scale public dataset, EPIC-Kitchens-100, and achieve considerable improvements over a baseline method, improved state-of-the-art performance, while at the same time performing multiple ablation studies. We release code and pretrained models on Github at https://github.com/aranciokov/FSMMDA_VideoRetrieval.
Abstract（参考訳）: 毎時、膨大な量のビジュアルコンテンツがソーシャルメディアやユーザー生成コンテンツプラットフォームに投稿される。自然言語による問合せにより関連映像を見つけるため,過去数年間,テキスト・ビデオ検索手法が注目されている。色空間や画像上の幾何学的変換といった意味論的保存手法を応用し、新しいトレーニングサンプルを作成することにより、見えないテスト例のパフォーマンスを向上させるためにデータ拡張技術が導入された。しかし、これらの技術は通常、生データに適用され、より多くのリソース要求のソリューションと生データの共有性が必要となり、映画やテレビシリーズのクリップの著作権問題など、必ずしも真実ではないかもしれない。この欠点に対処するために,特徴空間で動作し,意味的に類似したサンプルを混合して新たなビデオやキャプションを作成するマルチモーダルデータ拡張手法を提案する。我々は,大規模なパブリックデータセットEPIC-Kitchens-100で実験を行い,ベースライン法よりも大幅に改善され,最先端の性能が向上し,同時に複数のアブレーション研究を行った。私たちはgithubでコードと事前トレーニング済みモデルをhttps://github.com/aranciokov/fsmmda_videoretrieval.comでリリースしています。

関連論文リスト

Video-T1: Test-Time Scaling for Video Generation [19.089876374170167]
大規模言語モデル(LLM)の研究者たちは、スケーリングをテスト時間に拡大した。ビデオ生成モデルが非自明な量の推論時間計算を許せば、挑戦的なテキストプロンプトによって生成品質をどの程度向上できるかという問題に答えることを目指している。テキスト条件付きビデオ生成ベンチマークの実験では、テスト時間計算の増加がビデオの品質を大幅に向上させることを示した。
論文参考訳（メタデータ） (2025-03-24T17:59:04Z)
VRMDiff: Text-Guided Video Referring Matting Generation of Diffusion [9.465414294387507]
本稿では,参照キャプションを入力して,特定のインスタンスのアルファマットを取得する,新しいタスクであるビデオ参照マットを提案する。本稿では,ビデオ拡散モデルに先行するテキスト間アライメントを利用して,マットの密接な予測タスクを映像生成として扱う。大規模なビデオ参照マッチングデータセットを1万本導入した。
論文参考訳（メタデータ） (2025-03-11T06:12:35Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2024-11-29T18:59:54Z)
HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models [11.883785732720094]
本稿では,ビデオとテキストデータを拡張して,より一般化された特徴を学習する,新しいビデオテキスト学習パラダイムHaVTRを提案する。映像やテキストにリッチな情報をもたらすために,幻覚に基づく拡張手法を提案する。リッチなデータから、いくつかのビデオテキスト検索ベンチマークで広範な実験を行い、既存の手法よりもHaVTRの方が優れていることを示した。
論文参考訳（メタデータ） (2024-04-07T21:46:47Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。 HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。 3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文参考訳（メタデータ） (2022-02-07T18:04:10Z)
Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文参考訳（メタデータ） (2022-01-27T16:38:52Z)
TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文参考訳（メタデータ） (2021-04-16T17:55:28Z)
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。 6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文参考訳（メタデータ） (2021-02-11T18:50:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。