論文の概要: Video Editing for Video Retrieval
- arxiv url: http://arxiv.org/abs/2402.02335v2
- Date: Sat, 7 Sep 2024 14:29:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:22:55.339062
- Title: Video Editing for Video Retrieval
- Title(参考訳): ビデオ検索のためのビデオ編集
- Authors: Bin Zhu, Kevin Flanagan, Adriano Fragomeni, Michael Wray, Dima Damen,
- Abstract要約: ビデオクリップ編集のために学生-教師ネットワークが導入された。
教師モデルはトレーニングセットのクリップを編集するために使用され、学生モデルは編集されたクリップを訓練する。
3つのビデオ検索データセット、YouCook2、DiDeMo、ActivityNet-Captionsで行った実験では、編集済みクリップは3つの検索モデルすべてにわたって、初期クリップよりも検索性能を一貫して改善している。
- 参考スコア(独自算出の注目度): 37.481768294673486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though pre-training vision-language models have demonstrated significant benefits in boosting video-text retrieval performance from large-scale web videos, fine-tuning still plays a critical role with manually annotated clips with start and end times, which requires considerable human effort. To address this issue, we explore an alternative cheaper source of annotations, single timestamps, for video-text retrieval. We initialise clips from timestamps in a heuristic way to warm up a retrieval model. Then a video clip editing method is proposed to refine the initial rough boundaries to improve retrieval performance. A student-teacher network is introduced for video clip editing. The teacher model is employed to edit the clips in the training set whereas the student model trains on the edited clips. The teacher weights are updated from the student's after the student's performance increases. Our method is model agnostic and applicable to any retrieval models. We conduct experiments based on three state-of-the-art retrieval models, COOT, VideoCLIP and CLIP4Clip. Experiments conducted on three video retrieval datasets, YouCook2, DiDeMo and ActivityNet-Captions show that our edited clips consistently improve retrieval performance over initial clips across all the three retrieval models.
- Abstract(参考訳): 事前学習された視覚言語モデルは、大規模なWebビデオからビデオテキスト検索のパフォーマンスを向上する上で大きなメリットを示しているが、細調整は、開始時と終了時に手動で注釈付けされたクリップで重要な役割を果たす。
この問題に対処するために、ビデオテキスト検索のためのより安価なアノテーションソースであるシングルタイムスタンプを探索する。
タイムスタンプからのクリップをヒューリスティックな方法で初期化し、検索モデルをウォームアップする。
そこで, ビデオクリップ編集手法を提案し, 初期粗境界を改良し, 検索性能を向上させる。
ビデオクリップ編集のための学生-教師ネットワークを導入する。
教師モデルはトレーニングセットのクリップを編集するために使用され、学生モデルは編集されたクリップを訓練する。
教師の体重は、生徒のパフォーマンスが向上した後、生徒から更新される。
本手法はモデル非依存であり,任意の検索モデルに適用可能である。
我々は3つの最先端検索モデル(COOT, VideoCLIP, CLIP4Clip)に基づいて実験を行った。
3つのビデオ検索データセット、YouCook2、DiDeMo、ActivityNet-Captionsで行った実験では、編集済みクリップは3つの検索モデルすべてにわたって、初期クリップよりも検索性能を一貫して改善している。
関連論文リスト
- In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models [6.073813559982129]
ビデオ検索は、テキストキャプションまたはリバーサが与えられたビデオデータベースから、地上の真実のビデオを取得することを含む。
我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,ビデオ検索モデルの合成と構文的理解を評価する。
ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-28T20:06:36Z) - Transcript to Video: Efficient Clip Sequencing from Texts [65.87890762420922]
Transcript-to-Video - テキストを入力として使用する弱教師付きフレームワークで、広範なショットコレクションからビデオシーケンスを自動的に生成する。
具体的には、視覚言語表現とモデルショットシークエンシングスタイルを学習するためのコンテンツ検索モジュールとテンポラルコヒーレントモジュールを提案する。
高速な推論のために,リアルタイムビデオクリップシークエンシングのための効率的な検索手法を提案する。
論文 参考訳(メタデータ) (2021-07-25T17:24:50Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。