論文の概要: R^3: Composed Video Retrieval via Reasoning-Guided Recalling and Re-ranking
- arxiv url: http://arxiv.org/abs/2606.01113v1
- Date: Sun, 31 May 2026 09:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.21388
- Title: R^3: Composed Video Retrieval via Reasoning-Guided Recalling and Re-ranking
- Title(参考訳): R^3: Reasoning-Guided RecallingとRe- rankによるコンポジションビデオ検索
- Authors: Zixu Li, Yupeng Hu, Zhiheng Fu, Zhiwei Chen, Weili Guan, Liqiang Nie,
- Abstract要約: 本稿では、Reasoning-guided Recalling and Re rankを中心に構築されたゼロショット合成ビデオ検索パイプラインを提案する。
モデルは、編集を適用した後、期待されるターゲットビデオを記述する推論トレースを生成する。
この課題に対処する上で,本手法の有効性を実証した。
- 参考スコア(独自算出の注目度): 73.0537447183962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The CoVR-R challenge evaluates composed video retrieval, where a system must retrieve a target video from a large gallery given a reference video and a textual edit instruction. This setting is not a standard video-text retrieval problem: the query is defined by both the visual evidence in the source video and the transformation implied by the edit. A strong embedding model can provide scalable candidate recall, but it may under-express target-side consequences such as state changes, action replacement, object preservation, or temporal consistency. A pairwise multimodal reranker can verify such details more directly, but exhaustive reranking over the full gallery is computationally infeasible. We present $\mathbb{R}^3$, a zero-shot composed video retrieval pipeline built around Reasoning-guided Recalling and Reranking. The core idea is to turn the source-edit query into a reasoning-grounded retrieval program rather than treating the edit text as a short caption. First, the model generates a reasoning trace that describes the expected target video after applying the edit. Then the trace is encoded together with the source video as a reasoning-augmented query, and its retrieval score is fused with the base composed query through an agreement-gated residual rule. At last, a re-ranker verifies the recalled candidates with direct source-candidate comparison. Experiments have demonstrated the effectiveness of our method in addressing this challenge. Codes are available on https://github.com/Lee-zixu/R-3.
- Abstract(参考訳): CoVR-Rチャレンジは、コンポジションビデオ検索を評価し、システムは、参照ビデオとテキスト編集命令を与えられた大きなギャラリーからターゲットビデオを取得する必要がある。
この設定は、標準的なビデオテキスト検索の問題ではなく、クエリは、ソースビデオの視覚的エビデンスと、編集によって暗示される変換の両方によって定義される。
強力な埋め込みモデルは、スケーラブルな候補リコールを提供することができるが、状態変更、アクション置換、オブジェクトの保存、時間的一貫性といったターゲット側の結果が過小評価される可能性がある。
ペアワイズマルチモーダル・リランカは、これらの詳細をより直接的に検証することができるが、完全なギャラリーに対する徹底的なリランクは、計算的に不可能である。
Reasoning-guided Recalling and Re rank を中心に構築されたゼロショット合成ビデオ検索パイプラインである $\mathbb{R}^3$ を提示する。
その中核となる考え方は、ソース編集クエリを、編集テキストを短いキャプションとして扱うのではなく、推論に基づく検索プログラムに変換することである。
まず、編集を行った後、予測対象映像を記述した推論トレースを生成する。
そして、ソースビデオとともにトレースを推論拡張クエリとして符号化し、その検索スコアを合意付き残差ルールを介してベース合成クエリと融合する。
最終的に、リランカは、直接ソース候補比較でリコールされた候補を検証する。
この課題に対処する上で,本手法の有効性を実証した。
コードはhttps://github.com/Lee-zixu/R-3で公開されている。
関連論文リスト
- Reason, Retrieve, Re-rank: A Zero-Shot Reasoning-Aware Framework for Composed Video Retrieval [0.0]
Composed Video Retrieval (CoVR)は、参照ビデオに自由形式のテキスト修正を適用することで得られるターゲットビデオを求める。
textbfR3-CoVR(emphReason、Retrieve、Re-rank)は、凍結基盤モデルから完全に構築されたトレーニング不要のパイプラインである。
論文 参考訳(メタデータ) (2026-05-30T22:21:42Z) - ReTrack: Evidence-Driven Dual-Stream Directional Anchor Calibration Network for Composed Video Retrieval [24.278296673415827]
Composed Video Retrieval (CVR) はビデオ検索の新しいパラダイムとして登場した。
伝統的な合成法は、合成された特徴を基準ビデオに偏りがちである。
ReTrackは、構成された機能の方向バイアスを校正することで、マルチモーダルクエリ理解を改善する最初のCVRフレームワークである。
論文 参考訳(メタデータ) (2026-04-20T07:17:59Z) - Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding [25.82963105515627]
VideoHV-Agentは、構造化仮説検証プロセスとしてビデオ質問応答を再構成するフレームワークである。
ビデオHV-Agentは,解釈性の向上,論理的音質の向上,計算コストの低減を実現し,最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-03-05T09:16:07Z) - RANKVIDEO: Reasoning Reranking for Text-to-Video Retrieval [99.33724613432922]
本稿では,ビデオ検索のための推論に基づくリランカであるRANKVIDEOを紹介する。
RANKVIDEOは、関連性を評価するためにビデオコンテンツを使用するクエリ-ビデオペアを明示的に理由付けている。
大規模なMultiVENT 2.0ベンチマークの実験では、RANKVIDEOは2段階のフレームワーク内での検索性能を一貫して改善している。
論文 参考訳(メタデータ) (2026-02-02T18:40:37Z) - Text-Driven Reasoning Video Editing via Reinforcement Learning on Digital Twin Representations [8.479321655643195]
ビデオ編集モデルでは,編集対象を推測するマルチホップ推論によって暗黙的なクエリを解釈しなければならない。
RIVERは、空間的関係、時間的軌跡、意味的属性を保存したビデオコンテンツのデジタル双対表現を通じて生成から推論を分離する。
RIVERトレーニングは、推論精度と生成品質を評価する報酬付き強化学習を使用する。
論文 参考訳(メタデータ) (2025-11-18T03:37:19Z) - VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - RIGID: Recurrent GAN Inversion and Editing of Real Face Videos [73.97520691413006]
GANのインバージョンは、実画像に強力な編集可能性を適用するのに不可欠である。
既存のビデオフレームを個別に反転させる手法は、時間の経過とともに望ましくない一貫性のない結果をもたらすことが多い。
我々は、textbfRecurrent vtextbfIdeo textbfGAN textbfInversion and etextbfDiting (RIGID) という統合されたリカレントフレームワークを提案する。
本フレームワークは,入力フレーム間の固有コヒーレンスをエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2023-08-11T12:17:24Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。