論文の概要: Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives
- arxiv url: http://arxiv.org/abs/2508.14812v1
- Date: Wed, 20 Aug 2025 16:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.517217
- Title: Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives
- Title(参考訳): 粗大な目的語を用いたビデオ言語検索のための繰り返し単語
- Authors: Haoyu Zhao, Jiaxi Gu, Shicong Wang, Xing Zhang, Hang Xu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 既存の方法はビデオ検索性能を向上させるために大規模な事前学習に依存している。
そこで我々は,より微粒な特徴を学習し,アライメントを改善するための新しいフレームワークを提案する。
追加のトレーニングなしでパフォーマンスを改善するための推論パイプラインも導入しています。
- 参考スコア(独自算出の注目度): 93.31112073070906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The explosive growth of video streaming presents challenges in achieving high accuracy and low training costs for video-language retrieval. However, existing methods rely on large-scale pre-training to improve video retrieval performance, resulting in significant computational demands. Additionally, the fine-grained information in videos and texts remains underexplored. To alleviate these problems, we propose a novel framework to learn fine-grained features for better alignment and introduce an inference pipeline to improve performance without additional training. Specifically, we employ coarse-to-fine objectives to understand the semantic information of video-text pairs, including contrastive and matching learning. The fine-grained data used for training is obtained through the Granularity-Aware Representation module, which is designed based on similarity analysis between video frames and words in captions. Furthermore, we observe that the repetition of keywords in the original captions, referred to as "Repetition", can enhance retrieval performance and improve alignment between video and text. Based on this insight, we propose a novel and effective inference pipeline that incorporates a voting mechanism and a new Matching Entropy metric to achieve better retrieval performance without requiring additional pre-training. Experimental results on four benchmarks demonstrate that the proposed method outperforms previous approaches. Additionally, our inference pipeline achieves significant performance improvements, with a 2.1% increase in Recall@1 on the MSR-VTT dataset and a 1.6% increase on the DiDeMo dataset.
- Abstract(参考訳): ビデオストリーミングの爆発的な成長は、ビデオ言語検索の精度と低トレーニングコストを達成する上での課題である。
しかし、既存の手法はビデオ検索性能を向上させるために大規模な事前学習に依存しており、大きな計算要求が生じる。
さらに、ビデオやテキストのきめ細かい情報は、まだ解明されていない。
これらの問題を緩和するために、より詳細な特徴を学習してアライメントを改善するための新しいフレームワークを提案し、追加のトレーニングを伴わずにパフォーマンスを向上させるための推論パイプラインを導入する。
具体的には、コントラスト学習やマッチング学習を含むビデオテキストペアの意味情報を理解するために、粗大な目的を用いる。
ビデオフレームとキャプション中の単語の類似性解析に基づいて設計したGranularity-Aware Representationモジュールを用いて、トレーニングに使用するきめ細かいデータを得る。
さらに、「繰り返し」と呼ばれる原文キャプションにおけるキーワードの繰り返しは、検索性能を高め、ビデオとテキストのアライメントを改善することができることを観察した。
この知見に基づいて,予備学習を必要とせず,より優れた検索性能を実現するために,投票機構と新しいマッチングエントロピー指標を組み込んだ,新規で効果的な推論パイプラインを提案する。
4つのベンチマーク実験の結果,提案手法が従来の手法より優れていることが示された。
さらに、MSR-VTTデータセットではRecall@1が2.1%増加し、DiDeMoデータセットでは1.6%増加した。
関連論文リスト
- Multimodal Lengthy Videos Retrieval Framework and Evaluation Metric [1.9774761182870912]
本稿では,視覚的マッチングストリームと聴覚的マッチングストリームと,独自の字幕ベースのビデオセグメンテーションアプローチを組み合わせた統合フレームワークを提案する。
我々はYouCook2ベンチマークで実験を行い、有望な検索性能を示す。
論文 参考訳(メタデータ) (2025-04-06T18:18:09Z) - Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Towards Efficient and Effective Text-to-Video Retrieval with
Coarse-to-Fine Visual Representation Learning [15.998149438353133]
テキスト間検索のための2段階検索アーキテクチャを提案する。
トレーニングフェーズでは、パラメータフリーなテキストゲートインタラクションブロック(TIB)を設計し、詳細なビデオ表現学習を行う。
検索段階では、上位k候補を高速にリコールするために粗粒度映像表現を使用し、その後、細粒度映像表現によって再帰する。
論文 参考訳(メタデータ) (2024-01-01T08:54:18Z) - Leveraging Generative Language Models for Weakly Supervised Sentence
Component Analysis in Video-Language Joint Learning [10.486585276898472]
テキストデータの徹底的な理解は、マルチモーダルビデオ解析タスクの基本的な要素である。
目的タスクに応じて文成分の意義を理解することで,モデルの性能を高めることができると仮定する。
本稿では,コンポーネントの相対的重要性を計算し,映像言語タスクの改善に利用するために,弱教師付き重要度推定モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-10T02:03:51Z) - TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。
提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。
提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文 参考訳(メタデータ) (2021-04-16T17:55:28Z) - CUPID: Adaptive Curation of Pre-training Data for Video-and-Language
Representation Learning [49.18591896085498]
ソースデータとターゲットデータのドメインギャップを埋めるCUPIDを提案します。
CUPIDは、複数のビデオ言語およびビデオタスクにまたがる最新のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T06:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。