論文の概要: Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization
- arxiv url: http://arxiv.org/abs/2309.06877v1
- Date: Wed, 13 Sep 2023 10:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:41:33.158475
- Title: Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization
- Title(参考訳): 特徴異方性と相互情報最大化による映像侵害検出
- Authors: Zhenguang Liu, Xinyang Yu, Ruili Wang, Shuai Ye, Zhe Ma, Jianfeng
Dong, Sifeng He, Feng Qian, Xiaobo Zhang, Roger Zimmermann, Lei Yang
- Abstract要約: 本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
- 参考スコア(独自算出の注目度): 51.206398602941405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-media era provides us tremendous high quality videos. Unfortunately,
frequent video copyright infringements are now seriously damaging the interests
and enthusiasm of video creators. Identifying infringing videos is therefore a
compelling task. Current state-of-the-art methods tend to simply feed
high-dimensional mixed video features into deep neural networks and count on
the networks to extract useful representations. Despite its simplicity, this
paradigm heavily relies on the original entangled features and lacks
constraints guaranteeing that useful task-relevant semantics are extracted from
the features.
In this paper, we seek to tackle the above challenges from two aspects: (1)
We propose to disentangle an original high-dimensional feature into multiple
sub-features, explicitly disentangling the feature into exclusive
lower-dimensional components. We expect the sub-features to encode
non-overlapping semantics of the original feature and remove redundant
information.
(2) On top of the disentangled sub-features, we further learn an auxiliary
feature to enhance the sub-features. We theoretically analyzed the mutual
information between the label and the disentangled features, arriving at a loss
that maximizes the extraction of task-relevant information from the original
feature.
Extensive experiments on two large-scale benchmark datasets (i.e., SVD and
VCSL) demonstrate that our method achieves 90.1% TOP-100 mAP on the large-scale
SVD dataset and also sets the new state-of-the-art on the VCSL benchmark
dataset. Our code and model have been released at
https://github.com/yyyooooo/DMI/, hoping to contribute to the community.
- Abstract(参考訳): セルフメディアの時代は、とても高品質なビデオを提供する。
残念ながら、頻繁なビデオ著作権侵害は、ビデオクリエーターの興味や熱意に深刻な打撃を与えている。
したがって、侵害ビデオの特定は魅力的な作業だ。
現在の最先端の手法は、高次元の混合ビデオ特徴をディープニューラルネットワークに供給し、ネットワークにカウントして有用な表現を抽出する。
シンプルさにもかかわらず、このパラダイムは元々の絡み合った機能に大きく依存しており、有用なタスク関連セマンティクスが機能から抽出されるという制約を欠いている。
本稿では, 上記の課題を, 1) 元の高次元特徴を複数のサブ機能に分解し, 特徴を排他的低次元成分に明示的に分離することを提案する。
サブフィーチャは、元の機能の重複しないセマンティクスをエンコードし、冗長な情報を削除することを期待する。
(2)不連続な部分特徴の上に,さらに副特徴の強化のための補助特徴を学習する。
ラベルと不整合特徴との間の相互情報を理論的に解析し、元の特徴からタスク関連情報の抽出を最大化する損失に到達した。
2つの大規模ベンチマークデータセット(SVDとVCSL)に対する大規模な実験により、我々の手法は大規模SVDデータセット上で90.1%TOP-100 mAPを達成するとともに、VCSLベンチマークデータセット上で新しい最先端のデータセットを設定する。
私たちのコードとモデルはhttps://github.com/yyyooooo/DMI/でリリースされました。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos [9.209808258321559]
本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
論文 参考訳(メタデータ) (2023-11-07T08:05:09Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Hybrid-Attention Guided Network with Multiple Resolution Features for
Person Re-Identification [30.285126447140254]
本稿では,ハイレベルな特徴を学習する際の情報損失を低減するために,ハイレベルな埋め込みと低レベルな埋め込みを融合した新しい人物再IDモデルを提案する。
また,対象物に関するより識別的な特徴を抽出することを目的とした,空間的およびチャネル的注意機構をモデルに導入する。
論文 参考訳(メタデータ) (2020-09-16T08:12:42Z) - Not 3D Re-ID: a Simple Single Stream 2D Convolution for Robust Video
Re-identification [14.785070524184649]
ビデオベースのRe-IDは、以前の画像ベースの再識別手法の拡張である。
ResNet50-IBNアーキテクチャを利用した単純な単一ストリーム2D畳み込みネットワークの優れた性能を示す。
われわれのアプローチは、データセット間での最良のビデオRe-IDの実践と学習の伝達を利用して、既存の最先端のアプローチを上回ります。
論文 参考訳(メタデータ) (2020-08-14T12:19:32Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - An Attention-Based Deep Learning Model for Multiple Pedestrian
Attributes Recognition [4.6898263272139795]
本稿では,監視映像における歩行者の自動特徴付け問題に対する新しい解決策を提供する。
本稿では,より包括的な特徴表現を抽出するために,要素ワイド乗算層を用いたマルチタスクディープモデルを提案する。
実験は,2つのよく知られたデータセット (RAP と PETA) を用いて実施し,提案手法の最先端性に着目した。
論文 参考訳(メタデータ) (2020-04-02T16:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。