論文の概要: Expertized Caption Auto-Enhancement for Video-Text Retrieval
- arxiv url: http://arxiv.org/abs/2502.02885v1
- Date: Wed, 05 Feb 2025 04:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:29:14.702798
- Title: Expertized Caption Auto-Enhancement for Video-Text Retrieval
- Title(参考訳): ビデオテキスト検索のためのエキスパートキャプションオートエンハンスメント
- Authors: Junxiang Chen, Baoyao yang, Wenbin Yao,
- Abstract要約: 本稿では,表現の質を高め,自己学習による強調字幕における経験主義を緩和する自動字幕強調手法を提案する。
我々の手法は完全にデータ駆動型であり、大量のデータ収集や作業負荷を伴わず、自己適応性も向上する。
MSR-VTTでは68.5%,MSVDでは68.1%,DiDeMoでは62.0%,Top-1リコール精度は68.5%であった。
- 参考スコア(独自算出の注目度): 8.65473421564069
- License:
- Abstract: The burgeoning field of video-text retrieval has witnessed significant advancements with the advent of deep learning. However, the challenge of matching text and video persists due to inadequate textual descriptions of videos. The substantial information gap between the two modalities hinders a comprehensive understanding of videos, resulting in ambiguous retrieval results. While rewriting methods based on large language models have been proposed to broaden text expressions, carefully crafted prompts are essential to ensure the reasonableness and completeness of the rewritten texts. This paper proposes an automatic caption enhancement method that enhances expression quality and mitigates empiricism in augmented captions through self-learning. Additionally, an expertized caption selection mechanism is designed and introduced to customize augmented captions for each video, facilitating video-text matching. Our method is entirely data-driven, which not only dispenses with heavy data collection and computation workload but also improves self-adaptability by circumventing lexicon dependence and introducing personalized matching. The superiority of our method is validated by state-of-the-art results on various benchmarks, specifically achieving Top-1 recall accuracy of 68.5% on MSR-VTT, 68.1% on MSVD, and 62.0% on DiDeMo.
- Abstract(参考訳): ビデオテキスト検索の急成長は、ディープラーニングの出現とともに大きな進歩をみせた。
しかし、ビデオのテキスト記述が不十分なため、テキストとビデオのマッチングの課題は継続する。
2つのモード間の実質的な情報ギャップは、ビデオの包括的理解を妨げ、曖昧な検索結果をもたらす。
大規模言語モデルに基づく書き直し手法が提案されているが、書き直しの妥当性と完全性を確保するためには、慎重に書き直されたプロンプトが不可欠である。
本稿では,表現の質を高め,自己学習による強調字幕における経験主義を緩和する自動字幕強調手法を提案する。
さらに、ビデオテキストマッチングを容易にし、各ビデオのキャプションをカスタマイズするために、熟練したキャプション選択機構を設計、導入する。
本手法は完全にデータ駆動型であり,大量のデータ収集や計算処理を不要とするだけでなく,レキシコン依存を回避し,パーソナライズされたマッチングを導入することにより,自己適応性を向上させる。
MSR-VTTでは68.5%,MSVDでは68.1%,DiDeMoでは62.0%,Top-1リコール精度は68.5%であった。
関連論文リスト
- GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Does Video Summarization Require Videos? Quantifying the Effectiveness
of Language in Video Summarization [37.09662541127891]
入力ビデオのサイズが要約されるため、コンピュータビジョンにおいてビデオの要約は依然として大きな課題である。
本稿では,高いデータ効率で競合精度を実現する,効率的な言語のみの映像要約器を提案する。
論文 参考訳(メタデータ) (2023-09-18T00:08:49Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - CelebV-Text: A Large-Scale Facial Text-Video Dataset [91.22496444328151]
CelebV-Textは、顔テキストとビデオのペアの大規模で多様で高品質なデータセットである。
CelebV-Textは、7万本の顔ビデオクリップと多様なビジュアルコンテンツで構成され、それぞれに半自動テキスト生成戦略を用いて生成された20のテキストをペアリングする。
他のデータセットよりもCelebV-Textの方が優れていることは、ビデオ、テキスト、およびテキスト-ビデオ関連性の包括的な統計分析によって示される。
論文 参考訳(メタデータ) (2023-03-26T13:06:35Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。