論文の概要: Beyond Simple Edits: Composed Video Retrieval with Dense Modifications
- arxiv url: http://arxiv.org/abs/2508.14039v1
- Date: Tue, 19 Aug 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.041742
- Title: Beyond Simple Edits: Composed Video Retrieval with Dense Modifications
- Title(参考訳): シンプル編集を超えて:Dense Modificationを組み込んだビデオ検索
- Authors: Omkar Thawakar, Dmitry Demidov, Ritesh Thawkar, Rao Muhammad Anwer, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: 多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
- 参考スコア(独自算出の注目度): 96.46069692338645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Composed video retrieval is a challenging task that strives to retrieve a target video based on a query video and a textual description detailing specific modifications. Standard retrieval frameworks typically struggle to handle the complexity of fine-grained compositional queries and variations in temporal understanding limiting their retrieval ability in the fine-grained setting. To address this issue, we introduce a novel dataset that captures both fine-grained and composed actions across diverse video segments, enabling more detailed compositional changes in retrieved video content. The proposed dataset, named Dense-WebVid-CoVR, consists of 1.6 million samples with dense modification text that is around seven times more than its existing counterpart. We further develop a new model that integrates visual and textual information through Cross-Attention (CA) fusion using grounded text encoder, enabling precise alignment between dense query modifications and target videos. The proposed model achieves state-of-the-art results surpassing existing methods on all metrics. Notably, it achieves 71.3\% Recall@1 in visual+text setting and outperforms the state-of-the-art by 3.4\%, highlighting its efficacy in terms of leveraging detailed video descriptions and dense modification texts. Our proposed dataset, code, and model are available at :https://github.com/OmkarThawakar/BSE-CoVR
- Abstract(参考訳): 合成ビデオ検索は、クエリビデオと、特定の修正の詳細を詳述したテキスト記述に基づいて、対象の動画を検索しようとする難題である。
標準的な検索フレームワークは、典型的には、きめ細かい構成クエリの複雑さや、きめ細かい設定での検索能力を制限する時間的理解のバリエーションを扱うのに苦労する。
この問題に対処するために、さまざまなビデオセグメントにわたる細粒度と構成されたアクションの両方をキャプチャーし、検索したビデオコンテンツのより詳細な構成変更を可能にする新しいデータセットを提案する。
提案されたデータセットは、Dense-WebVid-CoVRと呼ばれ、1.6万のサンプルと、既存のものより約7倍の高密度な修正テキストで構成されている。
さらに、グラウンドドテキストエンコーダを用いたCross-Attention (CA)融合による視覚情報とテキスト情報を統合し、密集したクエリ修正とターゲットビデオの正確なアライメントを可能にする新しいモデルを開発する。
提案したモデルでは,すべての指標において既存の手法を上回り,最先端の結果が得られる。
特に、ビジュアル+テキスト設定において71.3\%のRecall@1を達成し、最先端の3.4\%を上回り、詳細なビデオ記述と高密度な修正テキストを活用するという点でその有効性を強調している。
提案したデータセット、コード、モデルは、https://github.com/OmkarThawakar/BSE-CoVRで利用可能である。
関連論文リスト
- Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives [58.15403987979496]
本稿では,RACCooNを提案する。
ビデオ生成モデルは、自動生成された物語や指示を取り入れて、生成されたコンテンツの質と精度を高める。
提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。
論文 参考訳(メタデータ) (2024-05-28T17:46:36Z) - Composed Video Retrieval via Enriched Context and Discriminative Embeddings [118.66322242183249]
コンポジションビデオ検索(CoVR)はコンピュータビジョンにおいて難しい問題である。
本稿では,クエリ固有のコンテキスト情報を明示的にエンコードするために,詳細な言語記述を活用する新しいCoVRフレームワークを提案する。
我々の手法はリコール@K=1のスコアで7%の上昇を達成した。
論文 参考訳(メタデータ) (2024-03-25T17:59:03Z) - Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks [25.96897989272303]
テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
論文 参考訳(メタデータ) (2024-01-06T09:38:55Z) - Video Referring Expression Comprehension via Transformer with
Content-conditioned Query [68.06199031102526]
ビデオ参照表現(REC)は、検索された自然言語に基づいて対象物をビデオにローカライズすることを目的としている。
ビデオRECの最近の改良は、学習可能なクエリを持つTransformerベースの手法を用いてなされている。
論文 参考訳(メタデータ) (2023-10-25T06:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。