論文の概要: CoVR-R:Reason-Aware Composed Video Retrieval
- arxiv url: http://arxiv.org/abs/2603.20190v1
- Date: Fri, 20 Mar 2026 17:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.286103
- Title: CoVR-R:Reason-Aware Composed Video Retrieval
- Title(参考訳): CoVR-R:Reason-Aware Composed Video Retrieval
- Authors: Omkar Thawakar, Dmitry Demidov, Vaishnav Potlapalli, Sai Prasanna Teja Reddy Bogireddy, Viswanatha Reddy Gajjala, Alaa Mostafa Lasheen, Rao Muhammad Anwer, Fahad Khan,
- Abstract要約: Composed Video Retrieval (CoVR)は、参照ビデオとテキスト修正が与えられたターゲットビデオを見つけることを目的としている。
以前の作業では、修正文が視覚的変化を完全に特定し、後効果や暗黙的な結果を見下ろしていると仮定していた。
我々は、大規模なマルチモーダルモデルを利用して、編集によって引き起こされる因果関係や時間的結果を予測する推論ファースト、ゼロショットアプローチを導入する。
- 参考スコア(独自算出の注目度): 25.765681895305736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed Video Retrieval (CoVR) aims to find a target video given a reference video and a textual modification. Prior work assumes the modification text fully specifies the visual changes, overlooking after-effects and implicit consequences (e.g., motion, state transitions, viewpoint or duration cues) that emerge from the edit. We argue that successful CoVR requires reasoning about these after-effects. We introduce a reasoning-first, zero-shot approach that leverages large multimodal models to (i) infer causal and temporal consequences implied by the edit, and (ii) align the resulting reasoned queries to candidate videos without task-specific finetuning. To evaluate reasoning in CoVR, we also propose CoVR-Reason, a benchmark that pairs each (reference, edit, target) triplet with structured internal reasoning traces and challenging distractors that require predicting after-effects rather than keyword matching. Experiments show that our zero-shot method outperforms strong retrieval baselines on recall at K and particularly excels on implicit-effect subsets. Our automatic and human analysis confirm higher step consistency and effect factuality in our retrieved results. Our findings show that incorporating reasoning into general-purpose multimodal models enables effective CoVR by explicitly accounting for causal and temporal after-effects. This reduces dependence on task-specific supervision, improves generalization to challenging implicit-effect cases, and enhances interpretability of retrieval outcomes. These results point toward a scalable and principled framework for explainable video search. The model, code, and benchmark are available at https://github.com/mbzuai-oryx/CoVR-R.
- Abstract(参考訳): Composed Video Retrieval (CoVR)は、参照ビデオとテキスト修正が与えられたターゲットビデオを見つけることを目的としている。
以前の作業では、修正テキストは、編集から現れる後効果や暗黙的な結果(例えば、動き、状態遷移、視点、時間経過など)を見渡すことで、視覚的変化を完全に特定していると仮定していた。
私たちは、CoVRの成功にはこれらのアフターエフェクトを推論する必要があると論じています。
大規模マルチモーダルモデルを活用する推論ファーストのゼロショットアプローチを導入する。
一 編集によって示唆される因果関係及び時間的結果を予測すること。
(II)タスク固有の微調整なしで、結果の推論クエリを候補ビデオにアライメントする。
また、CoVRにおける推論を評価するために、CoVR-Reason(参照、編集、ターゲット)三重項を構造化された内部推論トレースと組み合わせたベンチマーク)を提案する。
実験の結果, ゼロショット法はKでのリコールにおいて強い検索ベースラインを上回り, 特に暗黙的効果のサブセットでは優れていた。
自動解析と人的解析により,得られた結果のステップ整合性と実効性が確認された。
汎用マルチモーダルモデルに推論を組み込むことにより,因果関係や時間的影響を明示的に考慮し,効果的なCoVRの実現が期待できることを示す。
これにより、タスク固有の監視への依存を減らし、暗黙的な効果のあるケースへの一般化を改善し、検索結果の解釈可能性を高める。
これらの結果は、説明可能なビデオ検索のためのスケーラブルで原則化されたフレームワークに向けられている。
モデル、コード、ベンチマークはhttps://github.com/mbzuai-oryx/CoVR-R.comで公開されている。
関連論文リスト
- VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning [44.49803237328707]
ReVSegは、事前訓練された視覚言語モデルのネイティブインターフェースにおけるシーケンシャルな決定として推論を実行する。
我々は、多段階推論連鎖を最適化するために強化学習を採用し、モデルが結果駆動信号から判断品質を自己定義できるようにする。
論文 参考訳(メタデータ) (2025-12-02T14:44:12Z) - CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models [85.315711639214]
モデル固有の好奇心を利用して探索をガイドするフレームワークであるCuriosity-Driven Exploration (CDE)を紹介した。
アクターに対しては、生成された応答に対してパープレキシティを使用し、批判に対しては、マルチヘッドアーキテクチャからの値推定のばらつきを利用する。
理論的分析により,アクターのボーナスは本質的に過度に信頼された誤りを罰し,正しい反応の多様性を促進することが示唆された。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Enhancing Partially Relevant Video Retrieval with Robust Alignment Learning [29.427720184101474]
関連のあるビデオ検索は、あるクエリに関連するビデオを取得することを目的としている。
中心となる課題は、突発的なセマンティックな相関に対して、堅牢なクエリとビデオのアライメントを学ぶことだ。
データの不確実性を明示的にモデル化するRobust Alignment Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T11:30:43Z) - Reinforcing Video Reasoning Segmentation to Think Before It Segments [67.5703457389657]
本稿では,ビデオ推論セグメンテーションのためのLVLMであるVeason-R1を紹介する。
Veason-R1 は、Chain-of-Thought trajectories を付加した Group Relative Policy Optimization (O) を通じて訓練される。
空間的アライメントと時間的整合性を高める包括的報酬機構を組み込んだ。
Veason-R1は、複数のベンチマークで最先端のパフォーマンスを達成し、先行技術を上回っている。
論文 参考訳(メタデータ) (2025-08-15T15:34:56Z) - From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文 参考訳(メタデータ) (2025-06-05T17:31:17Z) - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models [29.706347050700867]
ビデオベース長周期因果推論(VCRBench)という新しいベンチマークを導入する。
VCRBenchは、LVLM(Large Video Language Model)が特定の目標を達成するために必要なイベントを特定し、推論し、正しくシーケンスできるかどうかをテストする。
本稿では,ビデオに基づく因果推論を,ビデオ認識と因果推論の2つのサブタスクに分割するモジュラーアプローチである認識推論分解(RRD)を提案する。
論文 参考訳(メタデータ) (2025-05-13T11:35:58Z) - Causalainer: Causal Explainer for Automatic Video Summarization [77.36225634727221]
多くのアプリケーションシナリオにおいて、不適切なビデオ要約は大きな影響を与える可能性がある。
説明可能性のモデリングは重要な関心事です。
Causalainerと呼ばれるCausal Explainerがこの問題に対処するために提案されている。
論文 参考訳(メタデータ) (2023-04-30T11:42:06Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。