Fugu-MT 論文翻訳(概要): Dual-Route Top-K Retrieval with 1v1 VLM Reranking for the CoVR-R

論文の概要: Dual-Route Top-K Retrieval with 1v1 VLM Reranking for the CoVR-R

arxiv url: http://arxiv.org/abs/2606.01097v1
Date: Sun, 31 May 2026 08:38:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:29.203486
Title: Dual-Route Top-K Retrieval with 1v1 VLM Reranking for the CoVR-R
Title（参考訳）: CoVR-R用1v1VLM付きデュアルルートトップK検索
Authors: Yuyang Sun, Yongliang Wu, Xingyu Zhu, Yuxia Chen, Zhenxiang Jiang, Yangguang Ji, Wenbo Zhu, Yanxi Shi, Jay Wu, Shuo Wang, Xu Yang,
Abstract要約: 1v1 VLMのデュアルルートトップK検索について述べる。システムは95.28 R@1、97.47 R@5、98.48 R@10、99.66 R@50に達する。
参考スコア（独自算出の注目度）: 15.724849094439987
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We describe \emph{Dual-Route Top-K Retrieval with 1v1 VLM Reranking} for the CoVR-R challenge. The method treats composed video retrieval as two coupled problems: finding a sufficiently complete top-k candidate set, and then safely deciding whether any candidate should replace a strong current top-1. We first improve the reasoning/text seed with a VLM slot selector over existing candidates, without introducing DFN visual retrieval. We then add a visual route from contact-sheet embeddings using DFN-H/DFN-L. The routes are merged into a top-10 candidate set, after which a VLM final reranker performs conservative 1v1 comparisons between the current top-1 and each challenger. On the hidden test split, the final system reaches 95.28 R@1, 97.47 R@5, 98.48 R@10, and 99.66 R@50. The main lesson is that CoVR-R benefits more from recall-selection decoupling than from broad text reranking or direct multi-candidate VLM classification.
Abstract（参考訳）: 本稿では,CoVR-Rチャレンジにおける1v1 VLMリグレード付きemph{Dual-Route Top-K Retrievalについて述べる。本手法は、合成ビデオ検索を、十分に完全なトップk候補セットを見つけ出し、任意の候補が強いトップ1を置き換えるべきかどうかを安全に判定する2つの結合した問題として扱う。まず、既存の候補に対してVLMスロットセレクタを用いた推論/テキストのシードをDFNビジュアル検索を導入することなく改善する。次に、DFN-H/DFN-Lを用いたコンタクトシート埋め込みから視覚経路を追加する。ルートはトップ10候補セットにマージされ、その後、VLMファイナルリランカは、現在のトップ1と各挑戦者の保守的な1v1比較を行う。隠れたテスト分割では、最終システムは95.28 R@1、97.47 R@5、98.48 R@10、99.66 R@50に達する。主な教訓は、CoVR-Rは、広範テキストの再分類や直接多重候補VLM分類よりも、リコール-選択の分離による恩恵が大きいことである。

関連論文リスト

Mira-Embeddings-V1: Domain-Adapted Semantic Reranking for Recruitment via LLM-Synthesized Data [12.621394200451613]
採用ドメインのセマンティックリグレードシステムであるmira-embeddings-v1を提案する。実際のJDから始めて、5段階のプロンプトパイプラインを構築し、さまざまな正と強のサンプルを生成する。次に、JD--JDコントラストトレーニングとJD--CVトリプルトアライメントの2ラウンドLoRA適応を適用した。
論文参考訳（メタデータ） (2026-04-20T02:51:12Z)
X-Aligner: Composed Visual Retrieval without the Bells and Whistles [5.3880484326593745]
視覚言語モデル(VLM)の表現力を活用した新しいコンポジションビデオ検索(CoVR)フレームワークを提案する。我々のフレームワークは、視覚とテキストの入力を徐々に融合させるクロスアテンション層からなる、新しいクロスアテンションモジュールX-Alignerを組み込んでいる。このフレームワークは,Webvid-CoVR-Testで63.93%のRecall@1を取得し,CIRタスクにおけるゼロショットの強い一般化を示す。
論文参考訳（メタデータ） (2026-01-23T09:33:38Z)
PREGEN: Uncovering Latent Thoughts in Composed Video Retrieval [9.493866391853723]
Composed Video Retrieval (CoVR)は、クエリビデオと修正テキストに基づいてビデオを取得することを目的としている。現在のCoVR法は、現代のビジョンランゲージモデル(VLM)を完全に活用できないこれらの制限を克服する効率的で強力なCoVRフレームワークであるPregenを紹介します。
論文参考訳（メタデータ） (2026-01-20T09:57:04Z)
Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers [3.9266376632068485]
Vote-in-Context(Vote-in-Context、VIC)は、ゼロショット推論タスクとしてリストのリランクと融合を再考する、トレーニング不要のフレームワークである。 ViC は MSR-VTT では 87.1% (t2v) / 89.0% (v2t) 、VATEX では 99.6% (v2t) となる。
論文参考訳（メタデータ） (2025-11-03T14:25:12Z)
Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning [70.6126069527741]
ConvRec-R1は会話レコメンデーションシステムのエンドツーエンドトレーニングのための2段階のフレームワークである。ステージ1では,Remap-Reflect-Adjustパイプラインを用いた行動閉鎖データセットを構築した。ステージ2では,グループ相対政策最適化の原則的拡張である Rank-GRPO を提案する。
論文参考訳（メタデータ） (2025-10-23T02:56:00Z)
From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。 TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。 TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文参考訳（メタデータ） (2025-06-05T17:31:17Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。 EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文参考訳（メタデータ） (2024-07-23T17:19:23Z)
LEAPS: End-to-End One-Step Person Search With Learnable Proposals [50.39493100627476]
LEAPSという学習可能な提案を用いたエンドツーエンドのワンステップ人物探索手法を提案する。スパースと学習可能な提案のセットが与えられた後、LEAPSは動的人物検索ヘッドを使用して、非最大抑圧後処理なしで直接人物検出および対応するre-id特徴生成を行う。
論文参考訳（メタデータ） (2023-03-21T13:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。