論文の概要: Band-Attention Modulated RetNet for Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2404.06022v1
- Date: Tue, 9 Apr 2024 05:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:48:59.449896
- Title: Band-Attention Modulated RetNet for Face Forgery Detection
- Title(参考訳): 顔偽造検出のためのバンドアテンション変調RetNet
- Authors: Zhida Zhang, Jie Cao, Wenkui Yang, Qihang Fan, Kai Zhou, Ran He,
- Abstract要約: トランスフォーマーネットワークは、大規模なデータセットにまたがるスケーラビリティのために、顔の偽造検出に広く利用されている。
広義の視覚的コンテキストを効率的に処理する軽量ネットワークであるBAR-Netを導入する。
本稿では、離散コサイン変換スペクトログラム全体を、学習可能な重み付き一連の周波数帯域として扱う適応周波数帯域変調機構を提案する。
- 参考スコア(独自算出の注目度): 44.0511745071837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer networks are extensively utilized in face forgery detection due to their scalability across large datasets.Despite their success, transformers face challenges in balancing the capture of global context, which is crucial for unveiling forgery clues, with computational complexity.To mitigate this issue, we introduce Band-Attention modulated RetNet (BAR-Net), a lightweight network designed to efficiently process extensive visual contexts while avoiding catastrophic forgetting.Our approach empowers the target token to perceive global information by assigning differential attention levels to tokens at varying distances. We implement self-attention along both spatial axes, thereby maintaining spatial priors and easing the computational burden.Moreover, we present the adaptive frequency Band-Attention Modulation mechanism, which treats the entire Discrete Cosine Transform spectrogram as a series of frequency bands with learnable weights.Together, BAR-Net achieves favorable performance on several face forgery datasets, outperforming current state-of-the-art methods.
- Abstract(参考訳): トランスフォーマーネットワークは,大規模なデータセットにまたがるスケーラビリティのために,大規模なフォージェリ検出において広く活用されている。その成功にもかかわらず,トランスフォーマーは,フォージェリヒントを公開する上で重要なグローバルコンテキストの確保と複雑性のバランスをとる上で,課題に直面している。この問題を軽減するために,破滅的な忘れを回避しつつ,広範囲な視覚的コンテキストを効率的に処理するように設計された軽量ネットワークであるBAR-Netを導入する。我々のアプローチは,異なる距離のトークンに差分注意レベルを割り当てることによって,グローバルな情報を知覚するためのターゲットトークンに権限を与える。
両空間軸に沿って自己アテンションを実装し,空間的先行性を維持し,計算負担を軽減するとともに,離散コサイン変換スペクトログラム全体を学習可能な重み付き一連の周波数帯域として扱う適応周波数バンドアテンション変調機構を提案する。
関連論文リスト
- Relating CNN-Transformer Fusion Network for Change Detection [23.025190360146635]
RCTNetは、空間的特徴と時間的特徴の両方を利用する早期融合バックボーンを導入した。
実験では、従来のRS画像CD法よりもRCTNetの方が明らかに優れていることを示した。
論文 参考訳(メタデータ) (2024-07-03T14:58:40Z) - TBSN: Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師型イメージデノベーション(SSID)において一般的なネットワークアーキテクチャである。
本稿では, ブラインドスポット要求を満たす変圧器演算子の解析と再設計により, 変圧器ベースブラインドスポットネットワーク(TBSN)を提案する。
空間的自己注意のために、注意行列に精巧なマスクを適用して受容場を制限し、拡張された畳み込みを模倣する。
チャネル自己アテンションについては,マルチスケールアーキテクチャの深層部において,チャネル数が空間的サイズよりも大きい場合,盲点情報を漏洩する可能性がある。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Regressions on quantum neural networks at maximal expressivity [0.0]
我々は、ネストした量子ビット回転の連続として構成できる普遍的な深部ニューラルネットワークの表現性を分析する。
最大表現力は、ネットワークの深さとキュービット数によって増大するが、基本的にはデータ符号化機構によって拘束される。
論文 参考訳(メタデータ) (2023-11-10T14:43:24Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale
Transformer [17.455782652441187]
広角画像補正のための半教師付きネットワークを提案する。
我々のネットワークはMulti-Scale Swin-Unet(MS-Unet)と呼ばれ、MSTB(Multi-scale Swin-Unet)上に構築されている。
論文 参考訳(メタデータ) (2021-09-14T09:40:25Z) - Data-driven Regularization via Racecar Training for Generalizing Neural
Networks [28.08782668165276]
ニューラルネットワークの一般化を改善するための新しいトレーニング手法を提案する。
逆パスによる実践的なネットワークアーキテクチャにおいて,私たちの定式化が容易に実現可能であることを示す。
提案手法で学習したネットワークは,すべての層で入力と出力のバランスが良くなり,説明性が向上し,各種タスクやタスク転送の性能が向上した。
論文 参考訳(メタデータ) (2020-06-30T18:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。