論文の概要: END$^2$: Robust Dual-Decoder Watermarking Framework Against Non-Differentiable Distortions
- arxiv url: http://arxiv.org/abs/2412.09960v1
- Date: Fri, 13 Dec 2024 08:37:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:01:57.011711
- Title: END$^2$: Robust Dual-Decoder Watermarking Framework Against Non-Differentiable Distortions
- Title(参考訳): END$^2$: 微分不能歪みに対するロバストデュアルデコーダ透かしフレームワーク
- Authors: Nan Sun, Han Fang, Yuxing Lu, Chengxin Zhao, Hefei Ling,
- Abstract要約: 現実世界の歪みは、しばしば微分不可能であり、エンドツーエンドのトレーニングの課題に繋がる。
本稿では,非微分歪みをトレーニングにうまく組み込むために,新しいデュアルデコーダアーキテクチャ (END$2$) を提案する。
提案手法は, 様々な非微分歪みの下で, 最先端のアルゴリズムより優れる。
- 参考スコア(独自算出の注目度): 15.774214187916423
- License:
- Abstract: DNN-based watermarking methods have rapidly advanced, with the ``Encoder-Noise Layer-Decoder'' (END) framework being the most widely used. To ensure end-to-end training, the noise layer in the framework must be differentiable. However, real-world distortions are often non-differentiable, leading to challenges in end-to-end training. Existing solutions only treat the distortion perturbation as additive noise, which does not fully integrate the effect of distortion in training. To better incorporate non-differentiable distortions into training, we propose a novel dual-decoder architecture (END$^2$). Unlike conventional END architecture, our method employs two structurally identical decoders: the Teacher Decoder, processing pure watermarked images, and the Student Decoder, handling distortion-perturbed images. The gradient is backpropagated only through the Teacher Decoder branch to optimize the encoder thus bypassing the problem of non-differentiability. To ensure resistance to arbitrary distortions, we enforce alignment of the two decoders' feature representations by maximizing the cosine similarity between their intermediate vectors on a hypersphere. Extensive experiments demonstrate that our scheme outperforms state-of-the-art algorithms under various non-differentiable distortions. Moreover, even without the differentiability constraint, our method surpasses baselines with a differentiable noise layer. Our approach is effective and easily implementable across all END architectures, enhancing practicality and generalizability.
- Abstract(参考訳): DNNベースの透かし方式は急速に進歩しており、最も広く使われているのは 'Encoder-Noise Layer-Decoder'' (END) フレームワークである。
エンドツーエンドのトレーニングを保証するためには、フレームワーク内のノイズ層を識別しなければなりません。
しかし、現実世界の歪みはしばしば微分不可能であり、エンドツーエンドのトレーニングの課題に繋がる。
既存の解は歪み摂動を付加雑音として扱うだけであり、トレーニングにおける歪みの影響を完全には統合しない。
学習に微分不可能な歪みをうまく組み込むため、新しいデュアルデコーダアーキテクチャ(END$^2$)を提案する。
従来の END アーキテクチャとは異なり,本手法では,教師デコーダ,純透かし画像処理,学生デコーダという2つの構造的に同一なデコーダを用いる。
勾配はTeacher Decoderブランチを通してのみバックプロパゲーションされ、エンコーダを最適化することで、非微分可能性の問題を回避することができる。
任意の歪みに対する耐性を確保するため、超球面上の中間ベクトル間のコサイン類似性を最大化することにより、2つのデコーダの特徴表現のアライメントを強制する。
大規模な実験により,本手法は様々な非微分歪み下で最先端のアルゴリズムより優れていることが示された。
さらに, 微分可能性制約がなくても, 微分可能な雑音層を持つベースラインを超越する手法を提案する。
当社のアプローチは,すべての END アーキテクチャに対して効果的かつ容易に実装可能であり,実用性と一般化性の向上を図っている。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Learning Linear Block Error Correction Codes [62.25533750469467]
本稿では,バイナリ線形ブロック符号の統一エンコーダデコーダトレーニングを初めて提案する。
また,コード勾配の効率的なバックプロパゲーションのために,自己注意マスキングを行うトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-05-07T06:47:12Z) - An Effective Mixture-Of-Experts Approach For Code-Switching Speech
Recognition Leveraging Encoder Disentanglement [9.28943772676672]
コードスイッチング現象は、自動音声認識を妨げる大きな障害である。
エンコーダの下層層が言語間音響情報を捕捉できるようにするために, 新たなアンタングルメント損失を導入する。
提案手法は,事前訓練されたデュアルエンコーダを用いた先行技術よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-02-27T04:08:59Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Optimally Controllable Perceptual Lossy Compression [16.208548355509127]
損失圧縮の最近の研究は、歪みと知覚品質が互いに相反していることを示している。
異なる知覚品質を得るためには、異なるデコーダをトレーニングする必要がある。
任意のD-Pトレードオフを最適に達成できるデコーダは2つしかないという非自明な発見を示す。
論文 参考訳(メタデータ) (2022-06-21T02:48:35Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Universal Rate-Distortion-Perception Representations for Lossy
Compression [31.28856752892628]
我々は、エンコーダを固定し、デコーダを変更して歪みや知覚制約の集合内の任意の点を達成できる普遍表現の概念を考える。
対応する情報理論の普遍的速度歪曲知覚が、近似的な意味で操作可能であることを証明した。
論文 参考訳(メタデータ) (2021-06-18T18:52:08Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Layer-Wise Multi-View Learning for Neural Machine Translation [45.679212203943194]
従来のニューラルネットワーク翻訳は、最上位のエンコーダ層のコンテキスト表現に限られている。
この問題を解決するために,レイヤワイドな多視点学習を提案する。
提案手法は,複数の強いベースラインに対して安定した改善をもたらす。
論文 参考訳(メタデータ) (2020-11-03T05:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。