論文の概要: Text Proxy: Decomposing Retrieval from a 1-to-N Relationship into N 1-to-1 Relationships for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2410.06618v2
- Date: Mon, 16 Dec 2024 09:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:58.373880
- Title: Text Proxy: Decomposing Retrieval from a 1-to-N Relationship into N 1-to-1 Relationships for Text-Video Retrieval
- Title(参考訳): テキストプロキシ: テキスト・ビデオ検索のための1対N関係からN対N関係に分解する
- Authors: Jian Xiao, Zhenzhen Hu, Jia Li, Richang Hong,
- Abstract要約: Text-Video-ProxyNet (TV-ProxyNet)は、TVRの従来の1対Nの関係をN対1の関係に分解するために設計された新しいフレームワークである。
TV-ProxyNetはMSRVTTとActivityNet Captionsの最先端のパフォーマンスを達成し、既存の方法と比較してDiDeMoを2.0%改善した。
- 参考スコア(独自算出の注目度): 43.77049879199673
- License:
- Abstract: Text-video retrieval (TVR) has seen substantial advancements in recent years, fueled by the utilization of pre-trained models and large language models (LLMs). Despite these advancements, achieving accurate matching in TVR remains challenging due to inherent disparities between video and textual modalities and irregularities in data representation. In this paper, we propose Text-Video-ProxyNet (TV-ProxyNet), a novel framework designed to decompose the conventional 1-to-N relationship of TVR into N distinct 1-to-1 relationships. By replacing a single text query with a series of text proxies, TV-ProxyNet not only broadens the query scope but also achieves a more precise expansion. Each text proxy is crafted through a refined iterative process, controlled by mechanisms we term as the director and dash, which regulate the proxy's direction and distance relative to the original text query. This setup not only facilitates more precise semantic alignment but also effectively manages the disparities and noise inherent in multimodal data. Our experiments on three representative video-text retrieval benchmarks, MSRVTT, DiDeMo, and ActivityNet Captions, demonstrate the effectiveness of TV-ProxyNet. The results show an improvement of 2.0% to 3.3% in R@1 over the baseline. TV-ProxyNet achieved state-of-the-art performance on MSRVTT and ActivityNet Captions, and a 2.0% improvement on DiDeMo compared to existing methods, validating our approach's ability to enhance semantic mapping and reduce error propensity.
- Abstract(参考訳): テキストビデオ検索(TVR)は、事前訓練されたモデルと大規模言語モデル(LLM)の利用により、近年大きく進歩している。
これらの進歩にもかかわらず、ビデオとテキスト間の相違やデータ表現の不規則により、TVRの正確なマッチングを実現することは依然として困難である。
本稿では,従来の1対NのTVR関係を1対1のN関係に分解する新しいフレームワークであるText-Video-ProxyNet(TV-ProxyNet)を提案する。
単一のテキストクエリを一連のテキストプロキシに置き換えることで、TV-ProxyNetはクエリの範囲を広げるだけでなく、より正確な拡張を実現する。
各テキストプロキシは、原文クエリに対するプロキシの方向と距離を調節する、ディレクタとダッシュと呼ばれるメカニズムによって制御される、洗練された反復プロセスによって作成される。
この設定は、より正確なセマンティックアライメントを促進するだけでなく、マルチモーダルデータに固有の相違やノイズを効果的に管理する。
本稿では,MSRVTT,DiDeMo,ActivityNet Captionsの3つの代表的なビデオテキスト検索ベンチマーク実験を行い,TV-ProxyNetの有効性を実証した。
その結果,R@1ではベースラインよりも2.0%から3.3%改善した。
TV-ProxyNetはMSRVTTとActivityNet Captionsの最先端性能を達成し、既存の手法と比較してDiDeMoを2.0%改善し、セマンティックマッピングを強化し、エラーの正当性を低下させるアプローチの能力を検証した。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - SNP-S3: Shared Network Pre-training and Significant Semantic
Strengthening for Various Video-Text Tasks [39.53905387025065]
本稿では,生データを直接事前学習することで,モーダルな動画表現を学習するためのフレームワークを提案する。
私たちの主な貢献は、事前トレーニングフレームワークとプロキシタスクにあります。
3つのダウンストリームビデオテキストタスクと6つのデータセットによる実験により、ピクセルレベルのビデオテキスト事前トレーニングにおいて、新たな最先端技術を確立することが実証された。
論文 参考訳(メタデータ) (2024-01-31T12:12:56Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - Bi-Calibration Networks for Weakly-Supervised Video Representation
Learning [153.54638582696128]
本稿では,弱い教師付きビデオ表現学習を促進するために,問合せとテキストの相互校正の新たな設計を提案する。
本稿では,バイキャリブレーションネットワーク(BCN)を新たに2つのキャリブレーションを結合して,テキストからクエリへの修正学習を行う。
BCNは3MのWebビデオで学習し、下流タスクの線形モデルプロトコルの下で優れた結果を得る。
論文 参考訳(メタデータ) (2022-06-21T16:02:12Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - ContextNet: Improving Convolutional Neural Networks for Automatic Speech
Recognition with Global Context [58.40112382877868]
ContextNet と呼ばれる新しい CNN-RNN-Transducer アーキテクチャを提案する。
ContextNetは、グローバルコンテキスト情報を畳み込みレイヤに組み込む、完全な畳み込みエンコーダを備えている。
クリーン/ノイズの多いLibriSpeechテストセット上では、ContextNetは、外部言語モデル(LM)なしで2.1%/4.6%、LMで1.9%/4.1%、および2.9%/7.0%のワードエラー率(WER)を達成した。
論文 参考訳(メタデータ) (2020-05-07T01:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。