論文の概要: X-Aligner: Composed Visual Retrieval without the Bells and Whistles
- arxiv url: http://arxiv.org/abs/2601.16582v1
- Date: Fri, 23 Jan 2026 09:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.620222
- Title: X-Aligner: Composed Visual Retrieval without the Bells and Whistles
- Title(参考訳): X-Aligner:ベルとウィスレスのないビジュアル検索
- Authors: Yuqian Zheng, Mariana-Iuliana Georgescu,
- Abstract要約: 視覚言語モデル(VLM)の表現力を活用した新しいコンポジションビデオ検索(CoVR)フレームワークを提案する。
我々のフレームワークは、視覚とテキストの入力を徐々に融合させるクロスアテンション層からなる、新しいクロスアテンションモジュールX-Alignerを組み込んでいる。
このフレームワークは,Webvid-CoVR-Testで63.93%のRecall@1を取得し,CIRタスクにおけるゼロショットの強い一般化を示す。
- 参考スコア(独自算出の注目度): 5.3880484326593745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Video Retrieval (CoVR) facilitates video retrieval by combining visual and textual queries. However, existing CoVR frameworks typically fuse multimodal inputs in a single stage, achieving only marginal gains over initial baseline. To address this, we propose a novel CoVR framework that leverages the representational power of Vision Language Models (VLMs). Our framework incorporates a novel cross-attention module X-Aligner, composed of cross-attention layers that progressively fuse visual and textual inputs and align their multimodal representation with that of the target video. To further enhance the representation of the multimodal query, we incorporate the caption of the visual query as an additional input. The framework is trained in two stages to preserve the pretrained VLM representation. In the first stage, only the newly introduced module is trained, while in the second stage, the textual query encoder is also fine-tuned. We implement our framework on top of BLIP-family architecture, namely BLIP and BLIP-2, and train it on the Webvid-CoVR data set. In addition to in-domain evaluation on Webvid-CoVR-Test, we perform zero-shot evaluations on the Composed Image Retrieval (CIR) data sets CIRCO and Fashion-IQ. Our framework achieves state-of-the-art performance on CoVR obtaining a Recall@1 of 63.93% on Webvid-CoVR-Test, and demonstrates strong zero-shot generalization on CIR tasks.
- Abstract(参考訳): Composed Video Retrieval (CoVR)は、ビジュアルクエリとテキストクエリを組み合わせることで、ビデオ検索を容易にする。
しかし、既存のCoVRフレームワークは一般的に単一のステージでマルチモーダル入力を融合させ、初期ベースラインよりも限界的なゲインしか達成しない。
そこで本研究では,視覚言語モデル(VLM)の表現力を活用した新しいCoVRフレームワークを提案する。
本フレームワークは,視覚的およびテキスト的入力を段階的に融合させ,そのマルチモーダル表現を対象映像と整合させるクロスアテンション・レイヤからなる,新しいクロスアテンション・モジュールX-Alignerを組み込んだ。
マルチモーダルクエリの表現をさらに強化するために、視覚的クエリのキャプションを追加入力として組み込む。
このフレームワークは、事前訓練されたVLM表現を保持するために、2つの段階で訓練される。
第1段階では、新しく導入されたモジュールのみをトレーニングし、第2段階では、テキストクエリエンコーダも微調整される。
我々はBLIPファミリーアーキテクチャ、すなわちBLIPとBLIP-2上にフレームワークを実装し、Webvid-CoVRデータセット上でトレーニングする。
Webvid-CoVR-Testのドメイン内評価に加えて、コンポジション画像検索(CIR)データセットCIRCOとFashion-IQでゼロショット評価を行う。
このフレームワークは,Webvid-CoVR-Testで63.93%のRecall@1を取得し,CIRタスクにおけるゼロショットの強い一般化を示す。
関連論文リスト
- PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval [9.493866391853723]
Composed Video Retrieval (CoVR)は、クエリビデオと修正テキストに基づいてビデオを取得することを目的としている。
現在のCoVR法は、現代のビジョンランゲージモデル(VLM)を完全に活用できない
これらの制限を克服する効率的で強力なCoVRフレームワークであるPregenを紹介します。
論文 参考訳(メタデータ) (2026-01-20T09:57:04Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。