論文の概要: Feature-compatible Progressive Learning for Video Copy Detection
- arxiv url: http://arxiv.org/abs/2304.10305v2
- Date: Fri, 12 May 2023 17:26:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 15:33:30.102230
- Title: Feature-compatible Progressive Learning for Video Copy Detection
- Title(参考訳): ビデオコピー検出のための機能互換プログレッシブラーニング
- Authors: Wenhao Wang, Yifan Sun, Yi Yang
- Abstract要約: ビデオコピー検出(VCD)は、未承認または複製されたビデオコンテンツのインスタンスを特定するために開発された。
本稿では,Meta AI Video similarity Challenge (VSC22), CVPR 2023について述べる。
- 参考スコア(独自算出の注目度): 30.358206867280426
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Copy Detection (VCD) has been developed to identify instances of
unauthorized or duplicated video content. This paper presents our second place
solutions to the Meta AI Video Similarity Challenge (VSC22), CVPR 2023. In
order to compete in this challenge, we propose Feature-Compatible Progressive
Learning (FCPL) for VCD. FCPL trains various models that produce
mutually-compatible features, meaning that the features derived from multiple
distinct models can be directly compared with one another. We find this mutual
compatibility enables feature ensemble. By implementing progressive learning
and utilizing labeled ground truth pairs, we effectively gradually enhance
performance. Experimental results demonstrate the superiority of the proposed
FCPL over other competitors. Our code is available at
https://github.com/WangWenhao0716/VSC-DescriptorTrack-Submission and
https://github.com/WangWenhao0716/VSC-MatchingTrack-Submission.
- Abstract(参考訳): ビデオコピー検出(VCD)は、未承認または複製されたビデオコンテンツのインスタンスを特定するために開発された。
本稿では,meta ai video similarity challenge (vsc22) の2位であるcvpr 2023について述べる。
この課題に対抗すべく,VCDのためのFCPL(Feature-Compatible Progressive Learning)を提案する。
FCPLは相互に互換性のある特徴を生成する様々なモデルを訓練しており、複数の異なるモデルから派生した特徴を直接比較することができる。
この相互互換性は機能アンサンブルを可能にする。
プログレッシブラーニングを実装し,ラベル付き真実ペアを活用することで,性能を効果的に向上する。
FCPLが他の競合相手よりも優れていることを示す実験結果が得られた。
私たちのコードはhttps://github.com/WangWenhao0716/VSC-DescriptorTrack-Submissionとhttps://github.com/WangWenhao0716/VSC-MatchingTrack-Submissionで利用可能です。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection [29.287017615414314]
CVLA(Commitment-Aided Video-Language Alignment)という,短時間のビデオユーモア検出のための新しいモデルを提案する。
CVLAは様々なモーダルチャネルにまたがる生信号で動作するが、一貫したセマンティック空間内にビデオと言語コンポーネントを整列させることにより、適切なマルチモーダル表現が得られる。
DY11kとUR-FUNNYを含む2つのユーモア検出データセットの実験結果は、CVLAが最先端といくつかの競合するベースラインアプローチを劇的に上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-14T10:05:19Z) - A Similarity Alignment Model for Video Copy Segment Matching [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
ビデオコピーセグメントマッチングのための類似度アライメントモデルを提案する。
SAMは他の競合他社よりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-05-25T03:08:51Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - A Dual-level Detection Method for Video Copy Detection [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
本稿では,ビデオ編集検出(VED)とフレームシーン検出(FSD)を併用したデュアルレベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T06:19:08Z) - 3rd Place Solution to Meta AI Video Similarity Challenge [1.1470070927586016]
本稿では,Meta AI Video similarity Challenge (VSC2022)における3位ソリューションについて述べる。
提案手法は既存の画像コピー検出技術に基づいており,映像データの性質を活かすためのいくつかの戦略を取り入れている。
論文 参考訳(メタデータ) (2023-04-24T10:00:09Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Single Shot Video Object Detector [215.06904478667337]
Single Shot Video Object Detector (SSVD)は、新しいアーキテクチャであり、ビデオ内のオブジェクト検出のための1段階の検出器に機能集約を新規に統合する。
448の448ドルの入力で、SSVDはImageNet VIDデータセットで79.2%のmAPを達成した。
論文 参考訳(メタデータ) (2020-07-07T15:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。