論文の概要: A Similarity Alignment Model for Video Copy Segment Matching
- arxiv url: http://arxiv.org/abs/2305.15679v1
- Date: Thu, 25 May 2023 03:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 17:42:52.757209
- Title: A Similarity Alignment Model for Video Copy Segment Matching
- Title(参考訳): ビデオコピーセグメントマッチングにおける類似性アライメントモデル
- Authors: Zhenhua Liu, Feipeng Ma, Tianyi Wang, Fengyun Rao
- Abstract要約: Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
ビデオコピーセグメントマッチングのための類似度アライメントモデルを提案する。
SAMは他の競合他社よりも優れたパフォーマンスを示しています。
- 参考スコア(独自算出の注目度): 13.517933749704866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of multimedia technology, Video Copy Detection has been
a crucial problem for social media platforms. Meta AI hold Video Similarity
Challenge on CVPR 2023 to push the technology forward. In this report, we share
our winner solutions on Matching Track. We propose a Similarity Alignment
Model(SAM) for video copy segment matching. Our SAM exhibits superior
performance compared to other competitors, with a 0.108 / 0.144 absolute
improvement over the second-place competitor in Phase 1 / Phase 2. Code is
available at
https://github.com/FeipengMa6/VSC22-Submission/tree/main/VSC22-Matching-Track-1st.
- Abstract(参考訳): マルチメディア技術の発展に伴い、ソーシャルメディアプラットフォームではビデオコピー検出が重要な問題となっている。
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
このレポートでは、Matching Trackで勝者のソリューションを共有します。
ビデオコピーセグメントマッチングのための類似性アライメントモデル(SAM)を提案する。
SAMは,第1フェーズ/第2フェーズにおいて第2フェーズの競合より0.108/0.144の絶対的な改善を施し,他の競合よりも優れた性能を示している。
コードはhttps://github.com/FeipengMa6/VSC22-Submission/tree/main/VSC22-Matching-Track-1stで公開されている。
関連論文リスト
- AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results [120.95863275142727]
本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。
この課題は、様々な圧縮標準の14コーデックで符号化された459本の動画の多様なデータセット上で、VQA法の性能を評価することであった。
論文 参考訳(メタデータ) (2024-08-21T20:32:45Z) - 1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [81.50620771207329]
ビデオオブジェクトセグメンテーション(RVOS)における静的支配データとフレームサンプリングの有効性について検討する。
本手法は,競技段階でのJ&Fスコア0.5447を達成し,PVUWチャレンジのMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2024-06-11T08:05:26Z) - NTIRE 2024 Quality Assessment of AI-Generated Content Challenge [141.37864527005226]
課題は、イメージトラックとビデオトラックに分けられる。
両トラックの勝利法はAIGCの予測性能に優れていた。
論文 参考訳(メタデータ) (2024-04-25T15:36:18Z) - A Dual-level Detection Method for Video Copy Detection [13.517933749704866]
Meta AIはCVPR 2023でビデオ類似性チャレンジを開催し、テクノロジーを前進させる。
本稿では,ビデオ編集検出(VED)とフレームシーン検出(FSD)を併用したデュアルレベル検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T06:19:08Z) - 3rd Place Solution to Meta AI Video Similarity Challenge [1.1470070927586016]
本稿では,Meta AI Video similarity Challenge (VSC2022)における3位ソリューションについて述べる。
提案手法は既存の画像コピー検出技術に基づいており,映像データの性質を活かすためのいくつかの戦略を取り入れている。
論文 参考訳(メタデータ) (2023-04-24T10:00:09Z) - Feature-compatible Progressive Learning for Video Copy Detection [30.358206867280426]
ビデオコピー検出(VCD)は、未承認または複製されたビデオコンテンツのインスタンスを特定するために開発された。
本稿では,Meta AI Video similarity Challenge (VSC22), CVPR 2023について述べる。
論文 参考訳(メタデータ) (2023-04-20T13:39:47Z) - M&M Mix: A Multimodal Multiview Transformer Ensemble [77.16389667210427]
本報告は,2022年のEpic-Kitchens Action Recognition Challengeにおける優勝ソリューションの背景にあるアプローチについて述べる。
提案手法は,MTV(Multiview Transformer for Video Recognition)に基づいて,マルチモーダル入力に適応する。
本手法は,アクションクラスにおけるテストセットのTop-1精度を52.8%向上させた。
論文 参考訳(メタデータ) (2022-06-20T15:31:13Z) - Cross-modal Manifold Cutmix for Self-supervised Video Representation
Learning [50.544635516455116]
本稿では,自己教師型学習のためのビデオ強化の設計に焦点をあてる。
まず、ビデオを混ぜて新しいビデオサンプルを作るための最良の戦略を分析します。
ビデオテッセラクトを他のビデオテッセラクトに挿入するCross-Modal Manifold Cutmix (CMMC)を提案する。
論文 参考訳(メタデータ) (2021-12-07T18:58:33Z) - Top1 Solution of QQ Browser 2021 Ai Algorithm Competition Track 1 :
Multimodal Video Similarity [0.6445605125467573]
QQブラウザ2021 Aiアルゴリズムコンペティション(AIAC)トラック1のソリューションについて説明する。
プレトレイン段階では、(1)ビデオタグ分類(VTC)、(2)マスク言語モデリング(MLM)、(3)マスクフレームモデリング(MFM)の3つのタスクでモデルを訓練する。
ファインチューンフェーズでは、ランク付き正規化人間ラベルに基づいて、映像類似度でモデルを訓練する。
私たちの完全なパイプラインは、いくつかのモデルを組み立てた後、リーダーボードで0.852を獲得しました。
論文 参考訳(メタデータ) (2021-10-30T15:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。