論文の概要: TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm
- arxiv url: http://arxiv.org/abs/2409.19865v1
- Date: Mon, 30 Sep 2024 01:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:01.425927
- Title: TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm
- Title(参考訳): TokenBinder:一対多のアライメントパラダイムによるテキストビデオ検索
- Authors: Bingqing Zhang, Zhuo Cao, Heming Du, Xin Yu, Xue Li, Jiajun Liu, Sen Wang,
- Abstract要約: TokenBinderは人間の認知科学における比較判断にインスパイアされている。
本手法では,高度なクロスアテンション機構を備えたFocused-view Fusion Networkを採用している。
実験の結果,TokenBinderは既存の最先端手法よりもかなり優れていたことが確認された。
- 参考スコア(独自算出の注目度): 26.706441126814934
- License:
- Abstract: Text-Video Retrieval (TVR) methods typically match query-candidate pairs by aligning text and video features in coarse-grained, fine-grained, or combined (coarse-to-fine) manners. However, these frameworks predominantly employ a one(query)-to-one(candidate) alignment paradigm, which struggles to discern nuanced differences among candidates, leading to frequent mismatches. Inspired by Comparative Judgement in human cognitive science, where decisions are made by directly comparing items rather than evaluating them independently, we propose TokenBinder. This innovative two-stage TVR framework introduces a novel one-to-many coarse-to-fine alignment paradigm, imitating the human cognitive process of identifying specific items within a large collection. Our method employs a Focused-view Fusion Network with a sophisticated cross-attention mechanism, dynamically aligning and comparing features across multiple videos to capture finer nuances and contextual variations. Extensive experiments on six benchmark datasets confirm that TokenBinder substantially outperforms existing state-of-the-art methods. These results demonstrate its robustness and the effectiveness of its fine-grained alignment in bridging intra- and inter-modality information gaps in TVR tasks.
- Abstract(参考訳): テキスト・ビデオ検索 (Text-Video Retrieval, TVR) の手法は、テキストとビデオの特徴を粗い粒度、細かい粒度、または粗い粒度(粗い粒度)で整列することで、クエリと候補のペアをマッチングするのが一般的である。
しかしながら、これらのフレームワークは主に1対1のアライメントパラダイムを採用しており、候補間のニュアンスの違いを識別するのに苦労しており、しばしばミスマッチが発生する。
人間の認知科学における比較判断に触発され,個別に評価するのではなく,直接比較することで決定が下されるTokenBinderを提案する。
この革新的な2段階のTVRフレームワークは、大きなコレクション内の特定のアイテムを識別する人間の認知過程を模倣する、新しい1対多の粗大なアライメントパラダイムを導入している。
提案手法では,複数のビデオにまたがる特徴を動的に整列・比較して,より微細なニュアンスや文脈変化を捉える,高度なクロスアテンション機構を備えたFocused-view Fusion Networkを採用している。
6つのベンチマークデータセットに対する大規模な実験により、TokenBinderが既存の最先端メソッドを大幅に上回っていることが確認された。
これらの結果は、TVRタスクにおけるモダリティ内およびモダリティ間情報のギャップを埋める際の、その堅牢性と、その微粒化アライメントの有効性を示す。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Disentangled Representation Learning for Text-Video Retrieval [51.861423831566626]
テキスト・ビデオ検索(TVR)における相互モダリティの相互作用
我々は相互作用のパラダイムを深く研究し、その計算を2つの項に分けることができることを示した。
本稿では,逐次的かつ階層的な表現を捉えるための非絡み合いフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-14T13:55:33Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Beyond the Deep Metric Learning: Enhance the Cross-Modal Matching with
Adversarial Discriminative Domain Regularization [21.904563910555368]
本稿では,画像とテキストのペア内における識別データドメインの集合を構築するための新しい学習フレームワークを提案する。
我々のアプローチは一般的に既存のメトリクス学習フレームワークの学習効率と性能を改善することができる。
論文 参考訳(メタデータ) (2020-10-23T01:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。