論文の概要: From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos
- arxiv url: http://arxiv.org/abs/2506.05274v1
- Date: Thu, 05 Jun 2025 17:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.85132
- Title: From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos
- Title(参考訳): プレイからリプレイへ:瞬間的に微調整されたビデオのためのコンピレーションビデオ検索
- Authors: Animesh Gupta, Jay Parmar, Ishan Rajendrakumar Dave, Mubarak Shah,
- Abstract要約: Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
- 参考スコア(独自算出の注目度): 48.666667545084835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Composed Video Retrieval (CoVR) retrieves a target video given a query video and a modification text describing the intended change. Existing CoVR benchmarks emphasize appearance shifts or coarse event changes and therefore do not test the ability to capture subtle, fast-paced temporal differences. We introduce TF-CoVR, the first large-scale benchmark dedicated to temporally fine-grained CoVR. TF-CoVR focuses on gymnastics and diving and provides 180K triplets drawn from FineGym and FineDiving. Previous CoVR benchmarks focusing on temporal aspect, link each query to a single target segment taken from the same video, limiting practical usefulness. In TF-CoVR, we instead construct each <query, modification> pair by prompting an LLM with the label differences between clips drawn from different videos; every pair is thus associated with multiple valid target videos (3.9 on average), reflecting real-world tasks such as sports-highlight generation. To model these temporal dynamics we propose TF-CoVR-Base, a concise two-stage training framework: (i) pre-train a video encoder on fine-grained action classification to obtain temporally discriminative embeddings; (ii) align the composed query with candidate videos using contrastive learning. We conduct the first comprehensive study of image, video, and general multimodal embedding (GME) models on temporally fine-grained composed retrieval in both zero-shot and fine-tuning regimes. On TF-CoVR, TF-CoVR-Base improves zero-shot mAP@50 from 5.92 (LanguageBind) to 7.51, and after fine-tuning raises the state-of-the-art from 19.83 to 25.82.
- Abstract(参考訳): Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
既存のCoVRベンチマークでは、外観の変化やイベントの粗い変更が強調されているため、微妙で急激な時間差を捉える能力はテストされていない。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
以前のCoVRベンチマークでは、時間的側面に注目し、各クエリを同じビデオから取得した単一のターゲットセグメントにリンクすることで、実用性に制限があった。
TF-CoVRでは、それぞれの<query, modified>ペアを、異なるビデオから引き出されたクリップ間のラベルの差を LLM に促すことで、それぞれのペアを複数の有効なターゲットビデオ(平均3.9)に関連付け、スポーツハイライト生成などの現実的なタスクを反映して構成する。
これらの時間的ダイナミクスをモデル化するために、簡潔な2段階トレーニングフレームワークTF-CoVR-Baseを提案する。
一 ビデオエンコーダの微粒な動作分類を予習して、時間的に差別的な埋め込みを得ること。
(II) コントラスト学習を用いて, 合成された問合せを候補ビデオと整合させる。
我々は、ゼロショットと微調整の双方で時間的にきめ細かな合成検索において、画像、ビデオ、一般マルチモーダル埋め込み(GME)モデルを初めて包括的に研究した。
TF-CoVRでは、TF-CoVR-Baseは0ショットのmAP@50を5.92(LanguageBind)から7.51に改善し、微調整後に最先端の19.83から25.82に引き上げた。
関連論文リスト
- EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval [52.375143786641196]
EgoCVRは、きめ細かいComposted Video Retrievalの評価ベンチマークである。
EgoCVRは2,295のクエリで構成され、高品質な時間的ビデオ理解に特化している。
論文 参考訳(メタデータ) (2024-07-23T17:19:23Z) - ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Partially Relevant Video Retrieval [39.747235541498135]
PRVR(Partially Relevant Video Retrieval)と呼ばれる新しいT2VRサブタスクを提案する。
PRVRは、未トリミングビデオの大規模なコレクションから、部分的に関連のあるビデオを取得することを目的としている。
PRVRをマルチインスタンス学習(MIL)問題として定式化し、ビデオクリップの袋とビデオフレームの袋とを同時に見る。
論文 参考訳(メタデータ) (2022-08-26T09:07:16Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。