論文の概要: ReCoVR: Closing the Loop in Interactive Composed Video Retrieval
- arxiv url: http://arxiv.org/abs/2605.09836v1
- Date: Mon, 11 May 2026 00:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.444131
- Title: ReCoVR: Closing the Loop in Interactive Composed Video Retrieval
- Title(参考訳): ReCoVR:インタラクティブなコンポジションビデオ検索でループを閉じる
- Authors: Bingqing Zhang, Yi Zhang, Zhuo Cao, Yang Li, Xue Li, Jiajun Liu, Sen Wang,
- Abstract要約: 合成ビデオ検索(CoVR)は、参照ビデオと修正テキストを用いて、ターゲットビデオの検索を行う。
対話型合成ビデオ検索はCoVRのマルチターン拡張であり,ユーザが徐々に検索意図を洗練させる。
反射知覚に基づくデュアルパスアーキテクチャであるReCoVR(Reflexive Composed Video Retrieval)を提案する。
- 参考スコア(独自算出の注目度): 26.019146002897724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Composed video retrieval (CoVR) searches for target videos using a reference video and a modification text, but existing methods are restricted to a single interaction round and cannot support the progressive nature of real-world visual search. To bridge this gap, we first formalize interactive composed video retrieval, a multi-turn extension of CoVR, where users progressively refine their search intent through natural-language feedback across turns. Adapting existing interactive retrieval methods to this setting reveals two structural weaknesses: reliance on a single retrieval channel and an open-loop retrieval design that consumes user feedback but does not diagnose whether its own retrieval trajectory is drifting or stagnating. To address these limitations, we propose ReCoVR (Reflexive Composed Video Retrieval), a dual-pathway architecture built on reflexive perception, where the system treats its retrieval history as diagnostic evidence alongside user feedback. Specifically, an Intent Pathway routes heterogeneous feedback to complementary retrieval channels, while a Reflection Pathway performs trajectory-level reflection to monitor result evolution and correct retrieval errors across turns. Experiments on multiple benchmarks show that ReCoVR consistently outperforms interactive baselines, notably achieving 74.30% R@1 after just one interactive round on the WebVid-CoVR-Test dataset.
- Abstract(参考訳): 合成ビデオ検索(CoVR)は,参照ビデオと修正テキストを用いて対象映像を検索するが,既存の手法は単一のインタラクションラウンドに限定されており,現実のビジュアル検索の進歩的な性質をサポートできない。
このギャップを埋めるために、我々はまずインタラクティブな合成ビデオ検索(CoVRのマルチターン拡張)を形式化する。
この設定に既存のインタラクティブ検索手法を適用すると、単一の検索チャンネルと、ユーザフィードバックを消費するが、自身の検索軌跡がドリフトしているか停滞しているかを診断しないオープンループ検索設計の2つの構造的弱点が明らかになる。
これらの制約に対処するために,反射的知覚に基づくデュアルパスウェイアーキテクチャであるReCoVR(Reflexive Composed Video Retrieval)を提案する。
特に、Intent Pathwayは相補的な検索チャネルに異種フィードバックをルーティングし、Reflection Pathwayは軌道レベルのリフレクションを実行して結果の進化を監視し、ターン間の検索エラーを補正する。
複数のベンチマークの実験によると、ReCoVRは、WebVid-CoVR-Testデータセットでたった1回の対話的なラウンドで74.30%のR@1を達成するなど、インタラクティブなベースラインを一貫して上回っている。
関連論文リスト
- Interactive Multi-Turn Retrieval for Health Videos [8.02912741133541]
ヘルスビデオの対話型マルチターンセマンティック検索を導入し,MHVRC(Multi-Turn Health Video Retrieval Corpus)を構築した。
本稿では,対話型2段階検索フレームワークDATRを提案する。
MHVRCの実験では、強いテキストビデオ検索ベースラインよりも一貫した利得を示している。
論文 参考訳(メタデータ) (2026-05-02T12:12:07Z) - ReTrack: Evidence-Driven Dual-Stream Directional Anchor Calibration Network for Composed Video Retrieval [24.278296673415827]
Composed Video Retrieval (CVR) はビデオ検索の新しいパラダイムとして登場した。
伝統的な合成法は、合成された特徴を基準ビデオに偏りがちである。
ReTrackは、構成された機能の方向バイアスを校正することで、マルチモーダルクエリ理解を改善する最初のCVRフレームワークである。
論文 参考訳(メタデータ) (2026-04-20T07:17:59Z) - RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval [99.33724613432922]
本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。
RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-02T18:40:37Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - Simple Baselines for Interactive Video Retrieval with Questions and
Answers [33.17722358007974]
本稿では,質問応答による対話型ビデオ検索のための,シンプルで効果的なベースラインを提案する。
ユーザインタラクションをシミュレートするためにビデオQAモデルを用い,対話型検索タスクの生産性向上を可能にすることを示す。
MSR-VTT, MSVD, AVSDによる実験により, 問合せに基づくインタラクションを用いたフレームワークは, テキストベースのビデオ検索システムの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-08-21T00:32:19Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。