論文の概要: Reason-Then-Retrieve for CoVR-R with Structured Edit Prompts and Dense-Sparse Fusion
- arxiv url: http://arxiv.org/abs/2606.02450v1
- Date: Mon, 01 Jun 2026 16:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.499077
- Title: Reason-Then-Retrieve for CoVR-R with Structured Edit Prompts and Dense-Sparse Fusion
- Title(参考訳): 構造化編集プロンプトと希薄核融合によるCoVR-Rの推論
- Authors: DongQing Liu, MengShi Qi, HongWei Ji,
- Abstract要約: 我々はQwen3.5-27Bの周囲にゼロショットの合理的検索パイプラインを構築している。
各ギャラリービデオに対して、モデルが検索指向の構造記述と密埋め込みを生成する。
検証では、R@1で80.81、R@5で94.86、R@10で97.11、R@50で98.59に達する。
- 参考スコア(独自算出の注目度): 13.20120200276798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CoVR-R studies reason-aware composed video retrieval: given a reference video and an edit instruction, the system must retrieve the target video that satisfies the edit. The main difficulty is that the target is not described directly; it must be inferred from fine-grained changes in object identity, action order, final state, hand interaction, and scene transition. We build a zero-shot reason-then-retrieve pipeline around Qwen3.5-27B. For each gallery video, the model generates a retrieval-oriented structured description and a dense embedding by pooling generated-token hidden states with token-dependent weights. For each query, the model first performs edit reasoning over the reference video and instruction, then generates a target-video description whose hidden states serve as the query embedding. We complement dense retrieval with a TF-IDF branch over the generated texts and fuse the two rankings with split-specific weights. On validation, the current best submission reaches 80.81 at R@1, 94.86 at R@5, 97.11 at R@10, and 98.59 at R@50. On the blind test split, it reaches 89.73 at R@1, 95.79 at R@5, 96.63 at R@10, and 97.98 at R@50.
- Abstract(参考訳): 参照ビデオと編集命令が与えられた場合、システムは編集を満足するターゲットビデオを取得する必要がある。
主な困難は、ターゲットが直接記述されないことである。オブジェクトのアイデンティティ、アクションの順序、最終状態、手動インタラクション、シーン遷移のきめ細かい変化から推論する必要がある。
我々はQwen3.5-27Bの周囲にゼロショットの合理的検索パイプラインを構築している。
ギャラリービデオ毎に,トークンに依存した重みで生成した隠れ状態をプールすることで,検索指向の構造記述と密埋め込みを生成する。
各クエリに対して、モデルはまず、参照ビデオと命令に対する編集推論を実行し、次に、隠れ状態がクエリの埋め込みとして機能するターゲットビデオ記述を生成する。
我々は、生成したテキスト上のTF-IDFブランチで高密度検索を補完し、2つのランキングを分割比重で融合する。
検証では、R@1で80.81、R@5で94.86、R@10で97.11、R@50で98.59に達する。
ブラインドテストのスプリットでは、R@1で89.73、R@5で95.79、R@10で96.63、R@50で97.98に達する。
関連論文リスト
- R^3: Composed Video Retrieval via Reasoning-Guided Recalling and Re-ranking [73.0537447183962]
本稿では、Reasoning-guided Recalling and Re rankを中心に構築されたゼロショット合成ビデオ検索パイプラインを提案する。
モデルは、編集を適用した後、期待されるターゲットビデオを記述する推論トレースを生成する。
この課題に対処する上で,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2026-05-31T09:20:53Z) - Reason, Retrieve, Re-rank: A Zero-Shot Reasoning-Aware Framework for Composed Video Retrieval [0.0]
Composed Video Retrieval (CoVR)は、参照ビデオに自由形式のテキスト修正を適用することで得られるターゲットビデオを求める。
textbfR3-CoVR(emphReason、Retrieve、Re-rank)は、凍結基盤モデルから完全に構築されたトレーニング不要のパイプラインである。
論文 参考訳(メタデータ) (2026-05-30T22:21:42Z) - CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering [2.3450855956637913]
現実のニュースイベントに答えるためには、システムは異質なアーカイブ全体にわたってクエリ関連エビデンスを提示する必要がある。
我々は、動的選択とビデオごとのASRと多言語フォールバックを組み合わせたクエリ条件パイプラインであるCRAFTと、ハイブリッド批評家ループを紹介する。
MAGMaR 2026では、CRAFTが最高の総合平均(0.739)、参照リコール(0.810)、引用F1(0.635)を達成する。
論文 参考訳(メタデータ) (2026-05-18T20:01:05Z) - Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z) - GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient
Partially Relevant Video Retrieval [59.47258928867802]
テキストクエリーが与えられた場合、部分関連ビデオ検索(PRVR)はデータベースに関連する瞬間を含むビデオを探し出そうとする。
本稿では,GMMFormerを提案する。GMMFormerはガウス・ミクチャーモデルに基づくトランスフォーマーで,クリップ表現を暗黙的にモデル化する。
3つの大規模ビデオデータセットの実験は、GMMFormerの優位性と効率を実証している。
論文 参考訳(メタデータ) (2023-10-08T15:04:50Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。