論文の概要: HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models
- arxiv url: http://arxiv.org/abs/2404.05083v1
- Date: Sun, 7 Apr 2024 21:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:02:57.617358
- Title: HaVTR: Improving Video-Text Retrieval Through Augmentation Using Large Foundation Models
- Title(参考訳): HaVTR:大規模ファンデーションモデルによる拡張によるビデオテキスト検索の改善
- Authors: Yimu Wang, Shuai Yuan, Xiangru Jian, Wei Pang, Mushi Wang, Ning Yu,
- Abstract要約: 本稿では,ビデオとテキストデータを拡張して,より一般化された特徴を学習する,新しいビデオテキスト学習パラダイムHaVTRを提案する。
映像やテキストにリッチな情報をもたらすために,幻覚に基づく拡張手法を提案する。
リッチなデータから、いくつかのビデオテキスト検索ベンチマークで広範な実験を行い、既存の手法よりもHaVTRの方が優れていることを示した。
- 参考スコア(独自算出の注目度): 11.883785732720094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent progress in video-text retrieval has been driven by the exploration of powerful model architectures and training strategies, the representation learning ability of video-text retrieval models is still limited due to low-quality and scarce training data annotations. To address this issue, we present a novel video-text learning paradigm, HaVTR, which augments video and text data to learn more generalized features. Specifically, we first adopt a simple augmentation method, which generates self-similar data by randomly duplicating or dropping subwords and frames. In addition, inspired by the recent advancement in visual and language generative models, we propose a more powerful augmentation method through textual paraphrasing and video stylization using large language models (LLMs) and visual generative models (VGMs). Further, to bring richer information into video and text, we propose a hallucination-based augmentation method, where we use LLMs and VGMs to generate and add new relevant information to the original data. Benefiting from the enriched data, extensive experiments on several video-text retrieval benchmarks demonstrate the superiority of HaVTR over existing methods.
- Abstract(参考訳): ビデオテキスト検索の最近の進歩は、強力なモデルアーキテクチャとトレーニング戦略の探求によって推進されているが、ビデオテキスト検索モデルの表現学習能力は、低品質かつ少ないトレーニングデータアノテーションのため、依然として制限されている。
この問題に対処するために,ビデオおよびテキストデータを拡張してより一般化された特徴を学習する,新しいビデオテキスト学習パラダイムであるHaVTRを提案する。
具体的には、まず、単語やフレームをランダムに複製またはドロップすることで、自己相似データを生成する単純な拡張手法を採用する。
さらに,近年の視覚・言語生成モデルの発展に触発されて,大規模言語モデル (LLM) と視覚生成モデル (VGM) を用いたテキストパラフレージングとビデオスタイリングによる,より強力な拡張手法を提案する。
さらに、映像やテキストにリッチな情報をもたらすために、私たちはLLMとVGMを使用して、元のデータに新たな関連情報を生成し、付加する幻覚に基づく拡張法を提案する。
リッチなデータから、いくつかのビデオテキスト検索ベンチマークで広範な実験を行い、既存の手法よりもHaVTRの方が優れていることを示した。
関連論文リスト
- VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリと関連性に基づいて関連動画を動的に検索する新しいフレームワークである。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。
私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。
意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T18:58:07Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Scaling Up Video Summarization Pretraining with Large Language Models [73.74662411006426]
本稿では,大規模ビデオ要約データセットを生成するための,自動化されたスケーラブルなパイプラインを提案する。
我々は既存のアプローチの限界を分析し、それらに効果的に対処する新しいビデオ要約モデルを提案する。
我々の研究は、プロが注釈付けした高品質の要約を持つ1200本の長編ビデオを含む新しいベンチマークデータセットも提示した。
論文 参考訳(メタデータ) (2024-04-04T11:59:06Z) - Leveraging Large Language Models for Node Generation in Few-Shot Learning on Text-Attributed Graphs [5.587264586806575]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
LLMはラベルから意味情報を抽出し、模範としてカテゴリに属するサンプルを生成する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。