論文の概要: Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval
- arxiv url: http://arxiv.org/abs/2509.04773v1
- Date: Fri, 05 Sep 2025 03:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.461997
- Title: Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval
- Title(参考訳): ハイブリッドタワー:微細な擬似クエリインタラクションとテキスト・ビデオ検索のための生成
- Authors: Bangxiang Lan, Ruobing Xie, Ruixiang Zhao, Xingwu Sun, Zhanhui Kang, Gang Yang, Xirong Li,
- Abstract要約: Text-to-Video Retrieval (T2VR)タスクは、同じ意味を持つテキストクエリによってラベル付けされていないビデオを取得することを目的としている。
最近のCLIPベースのアプローチでは、Two-TowerとSingle-Towerの2つのフレームワークが検討されている。
本稿では,Two-TowerフレームワークとSingle-Towerフレームワークの利点をハイブリダイズするハイブリッド・Towerフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.09798805988753
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Text-to-Video Retrieval (T2VR) task aims to retrieve unlabeled videos by textual queries with the same semantic meanings. Recent CLIP-based approaches have explored two frameworks: Two-Tower versus Single-Tower framework, yet the former suffers from low effectiveness, while the latter suffers from low efficiency. In this study, we explore a new Hybrid-Tower framework that can hybridize the advantages of the Two-Tower and Single-Tower framework, achieving high effectiveness and efficiency simultaneously. We propose a novel hybrid method, Fine-grained Pseudo-query Interaction and Generation for T2VR, ie, PIG, which includes a new pseudo-query generator designed to generate a pseudo-query for each video. This enables the video feature and the textual features of pseudo-query to interact in a fine-grained manner, similar to the Single-Tower approaches to hold high effectiveness, even before the real textual query is received. Simultaneously, our method introduces no additional storage or computational overhead compared to the Two-Tower framework during the inference stage, thus maintaining high efficiency. Extensive experiments on five commonly used text-video retrieval benchmarks demonstrate that our method achieves a significant improvement over the baseline, with an increase of $1.6\% \sim 3.9\%$ in R@1. Furthermore, our method matches the efficiency of Two-Tower models while achieving near state-of-the-art performance, highlighting the advantages of the Hybrid-Tower framework.
- Abstract(参考訳): Text-to-Video Retrieval (T2VR)タスクは、同じ意味を持つテキストクエリによってラベル付けされていないビデオを取得することを目的としている。
最近のCLIPベースのアプローチでは、Two-TowerとSingle-Towerの2つのフレームワークが検討されている。
本研究では,Two-TowerおよびSingle-Towerフレームワークの利点をハイブリダイズし,高い有効性と効率を同時に実現するハイブリッド・Towerフレームワークについて検討する。
ビデオ毎に擬似クエリを生成するように設計された新しい擬似クエリー生成器を含む,T2VR, ie, PIGのための擬似クエリーインタラクションと生成のための新しいハイブリッド手法を提案する。
これにより、実際のテキストクエリが受信される前であっても、ビデオ機能と擬似クエリのテキスト機能は、Single-Towerアプローチと同様に、きめ細かい方法で対話することが可能となる。
同時に,提案手法では,2towerフレームワークと比較してストレージや計算オーバーヘッドが増加せず,高い効率性を維持している。
5つのテキストビデオ検索ベンチマークによる大規模な実験により,R@1では1.6\% \sim 3.9\%$が増加し,ベースラインよりも大幅な改善が得られた。
さらに,本手法は2towerモデルの効率性に一致し,最先端性能を実現し,Hybrid-Towerフレームワークの利点を浮き彫りにしている。
関連論文リスト
- Repeating Words for Video-Language Retrieval with Coarse-to-Fine Objectives [93.31112073070906]
既存の方法はビデオ検索性能を向上させるために大規模な事前学習に依存している。
そこで我々は,より微粒な特徴を学習し,アライメントを改善するための新しいフレームワークを提案する。
追加のトレーニングなしでパフォーマンスを改善するための推論パイプラインも導入しています。
論文 参考訳(メタデータ) (2025-08-20T16:03:56Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking [3.5291730624600848]
ロングフォーム映像理解は対話型検索システムにおいて重要な課題である。
既存のアプローチは、単一のモデル、非効率なストレージ、不安定な時間探索、コンテキストに依存しない再ランクなどに依存していることが多い。
本稿では、4つの重要な革新を通じてインタラクティブなビデオ検索を強化する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-11T09:36:46Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Saliency-Guided DETR for Moment Retrieval and Highlight Detection [41.94295877935867]
既存のビデオモーメント検索とハイライト検出のアプローチでは、テキストとビデオの機能を効率的に調整することはできない。
このようなアライメントのために設計された最近の基礎的ビデオモデルを利用する新しいアーキテクチャを提案する。
さらに改良するために,大規模かつ高品質なプレトレーニングデータセットであるInterVid-MRを開発した。
論文 参考訳(メタデータ) (2024-10-02T14:53:45Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。