論文の概要: X-Aligner: Composed Visual Retrieval without the Bells and Whistles
- arxiv url: http://arxiv.org/abs/2601.16582v1
- Date: Fri, 23 Jan 2026 09:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.620222
- Title: X-Aligner: Composed Visual Retrieval without the Bells and Whistles
- Title(参考訳): X-Aligner:ベルとウィスレスのないビジュアル検索
- Authors: Yuqian Zheng, Mariana-Iuliana Georgescu,
- Abstract要約: 視覚言語モデル(VLM)の表現力を活用した新しいコンポジションビデオ検索(CoVR)フレームワークを提案する。
我々のフレームワークは、視覚とテキストの入力を徐々に融合させるクロスアテンション層からなる、新しいクロスアテンションモジュールX-Alignerを組み込んでいる。
このフレームワークは,Webvid-CoVR-Testで63.93%のRecall@1を取得し,CIRタスクにおけるゼロショットの強い一般化を示す。
- 参考スコア(独自算出の注目度): 5.3880484326593745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Video Retrieval (CoVR) facilitates video retrieval by combining visual and textual queries. However, existing CoVR frameworks typically fuse multimodal inputs in a single stage, achieving only marginal gains over initial baseline. To address this, we propose a novel CoVR framework that leverages the representational power of Vision Language Models (VLMs). Our framework incorporates a novel cross-attention module X-Aligner, composed of cross-attention layers that progressively fuse visual and textual inputs and align their multimodal representation with that of the target video. To further enhance the representation of the multimodal query, we incorporate the caption of the visual query as an additional input. The framework is trained in two stages to preserve the pretrained VLM representation. In the first stage, only the newly introduced module is trained, while in the second stage, the textual query encoder is also fine-tuned. We implement our framework on top of BLIP-family architecture, namely BLIP and BLIP-2, and train it on the Webvid-CoVR data set. In addition to in-domain evaluation on Webvid-CoVR-Test, we perform zero-shot evaluations on the Composed Image Retrieval (CIR) data sets CIRCO and Fashion-IQ. Our framework achieves state-of-the-art performance on CoVR obtaining a Recall@1 of 63.93% on Webvid-CoVR-Test, and demonstrates strong zero-shot generalization on CIR tasks.
- Abstract(参考訳): Composed Video Retrieval (CoVR)は、ビジュアルクエリとテキストクエリを組み合わせることで、ビデオ検索を容易にする。
しかし、既存のCoVRフレームワークは一般的に単一のステージでマルチモーダル入力を融合させ、初期ベースラインよりも限界的なゲインしか達成しない。
そこで本研究では,視覚言語モデル(VLM)の表現力を活用した新しいCoVRフレームワークを提案する。
本フレームワークは,視覚的およびテキスト的入力を段階的に融合させ,そのマルチモーダル表現を対象映像と整合させるクロスアテンション・レイヤからなる,新しいクロスアテンション・モジュールX-Alignerを組み込んだ。
マルチモーダルクエリの表現をさらに強化するために、視覚的クエリのキャプションを追加入力として組み込む。
このフレームワークは、事前訓練されたVLM表現を保持するために、2つの段階で訓練される。
第1段階では、新しく導入されたモジュールのみをトレーニングし、第2段階では、テキストクエリエンコーダも微調整される。
我々はBLIPファミリーアーキテクチャ、すなわちBLIPとBLIP-2上にフレームワークを実装し、Webvid-CoVRデータセット上でトレーニングする。
Webvid-CoVR-Testのドメイン内評価に加えて、コンポジション画像検索(CIR)データセットCIRCOとFashion-IQでゼロショット評価を行う。
このフレームワークは,Webvid-CoVR-Testで63.93%のRecall@1を取得し,CIRタスクにおけるゼロショットの強い一般化を示す。
関連論文リスト
- EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval [9.493866391853723]
Composed Video Retrieval (CoVR)は、クエリビデオと修正テキストに基づいてビデオを取得することを目的としている。
現在のCoVR法は、現代のビジョンランゲージモデル(VLM)を完全に活用できない
これらの制限を克服する効率的で強力なCoVRフレームワークであるPregenを紹介します。
論文 参考訳(メタデータ) (2026-01-20T09:57:04Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - VLG: General Video Recognition with Web Textual Knowledge [47.3660792813967]
我々は、統合されたフレームワーク内で異なる認識タスクを解くための一般的なビデオ認識(GVR)問題に焦点を当てる。
インターネットからクロールされたノイズの多いテキスト記述から意味知識を活用することで、統合視覚言語フレームワーク(VLG)を提案する。
我々のVLGは、まずビデオと言語データセットで事前訓練され、共有機能空間を学習し、それからフレキシブルなバイモーダルなアテンションヘッドを考案し、異なる設定下でハイレベルなセマンティックな概念を協調します。
論文 参考訳(メタデータ) (2022-12-03T15:46:49Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。