論文の概要: DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
- arxiv url: http://arxiv.org/abs/2404.05083v2
- Date: Tue, 04 Feb 2025 04:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:56:10.557983
- Title: DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models
- Title(参考訳): DREAM: 大規模基礎モデルによる関連性に基づく拡張によるビデオテキスト検索の改善
- Authors: Yimu Wang, Shuai Yuan, Bo Xue, Xiangru Jian, Wei Pang, Mushi Wang, Ning Yu,
- Abstract要約: 本稿では、Relevance-based AugMentation(DREAM)を用いたViDeoText Retrieval Paradigmを提案する。
我々はまず,単語やフレームをランダムに複製あるいはドロップすることで,自己相似データを生成する単純な拡張手法を採用する。
ビデオやテキスト情報をさらに強化するために,LLMとVGMが関連情報を生成・統合する関連性に基づく拡張手法を提案する。
- 参考スコア(独自算出の注目度): 12.393189634359064
- License:
- Abstract: Recent progress in video-text retrieval has been driven largely by advancements in model architectures and training strategies. However, the representation learning capabilities of videotext retrieval models remain constrained by lowquality and limited training data annotations. To address this issue, we present a novel ViDeoText Retrieval Paradigm with RElevance-based AugMentation, namely DREAM, which enhances video and text data using large foundation models to learn more generalized features. Specifically, we first adopt a simple augmentation method, which generates self-similar data by randomly duplicating or dropping subwords and frames. In addition, inspired by the recent advancement in visual and language generative models, we propose a more robust augmentation method through textual paraphrasing and video stylization using large language models (LLMs) and visual generative models (VGMs). To further enrich video and text information, we propose a relevance-based augmentation method, where LLMs and VGMs generate and integrate new relevant information into the original data. Leveraging this enriched data, extensive experiments on several video-text retrieval benchmarks demonstrate the superiority of DREAM over existing methods.
- Abstract(参考訳): ビデオテキスト検索の最近の進歩は、主にモデルアーキテクチャとトレーニング戦略の進歩によって進められている。
しかし、ビデオテキスト検索モデルの表現学習能力は、低品質で限られたトレーニングデータアノテーションによって制限されている。
この問題に対処するために,大規模な基盤モデルを用いてビデオやテキストデータを拡張し,より一般化された特徴を学習する,Relevance-based AugMentation(DREAM)を用いた新しいViDeoText Retrieval Paradigmを提案する。
具体的には、まず、単語やフレームをランダムに複製またはドロップすることで、自己相似データを生成する単純な拡張手法を採用する。
さらに,近年の視覚・言語生成モデルの発展に触発されて,大規模言語モデル (LLM) と視覚生成モデル (VGM) を用いたテキストパラフレージングとビデオスタイリングによる,より堅牢な拡張手法を提案する。
ビデオやテキスト情報をさらに強化するために,LLMとVGMが関連情報を生成・統合する関連性に基づく拡張手法を提案する。
このリッチなデータを活用することで、ビデオテキスト検索ベンチマークの広範な実験により、既存の手法よりもDREAMの方が優れていることが示された。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリと関連性に基づいて関連動画を動的に検索する新しいフレームワークである。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。
私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。
意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T18:58:07Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Leveraging Large Language Models for Node Generation in Few-Shot Learning on Text-Attributed Graphs [5.587264586806575]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
LLMはラベルから意味情報を抽出し、模範としてカテゴリに属するサンプルを生成する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。