論文の概要: PerCo (SD): Open Perceptual Compression
- arxiv url: http://arxiv.org/abs/2409.20255v1
- Date: Mon, 30 Sep 2024 12:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 11:58:29.525925
- Title: PerCo (SD): Open Perceptual Compression
- Title(参考訳): PerCo (SD): オープンパーセプティカル圧縮
- Authors: Nikolai Körber, Eduard Kromer, Andreas Siebert, Sascha Hauke, Daniel Mueller-Gritschneder, Björn Schuller,
- Abstract要約: PerCo(SD)は、Stable Diffusion v2.1に基づく知覚画像圧縮方式で、超低ビット範囲をターゲットとしている。
PerCo(SD)は、最先端のPerCoに代わるオープンで競争力のある代替手段である。
MSCOCO-30kデータセットでは、PerCo(SD)は高い歪みを犠牲にして知覚特性の改善を示す。
- 参考スコア(独自算出の注目度): 0.030448596365296413
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce PerCo (SD), a perceptual image compression method based on Stable Diffusion v2.1, targeting the ultra-low bit range. PerCo (SD) serves as an open and competitive alternative to the state-of-the-art method PerCo, which relies on a proprietary variant of GLIDE and remains closed to the public. In this work, we review the theoretical foundations, discuss key engineering decisions in adapting PerCo to the Stable Diffusion ecosystem, and provide a comprehensive comparison, both quantitatively and qualitatively. On the MSCOCO-30k dataset, PerCo (SD) demonstrates improved perceptual characteristics at the cost of higher distortion. We partly attribute this gap to the different model capacities being used (866M vs. 1.4B). We hope our work contributes to a deeper understanding of the underlying mechanisms and paves the way for future advancements in the field. Code and trained models will be released at https://github.com/Nikolai10/PerCo.
- Abstract(参考訳): 本稿では,Stable Diffusion v2.1に基づく知覚画像圧縮手法PerCo(SD)を紹介する。
PerCo (SD) は、GLIDEのプロプライエタリな派生品に依存し、現在も一般公開されている、最先端のPerCoのオープンで競争力のある代替品として機能する。
本論では,PerCoを安定拡散生態系に適用する上での重要な工学的決定を論じ,定量的かつ定性的に総合的な比較を行う。
MSCOCO-30kデータセットでは、PerCo(SD)は高い歪みを犠牲にして知覚特性の改善を示す。
このギャップの一部は、使用中の異なるモデル容量 (866M vs. 1.4B) に起因している。
私たちの研究が、基盤となるメカニズムのより深い理解に寄与し、今後の分野の発展への道を開くことを願っています。
コードとトレーニングされたモデルはhttps://github.com/Nikolai10/PerCo.comでリリースされる。
関連論文リスト
- Rectified Diffusion Guidance for Conditional Generation [62.00207951161297]
CFGの背後にある理論を再検討し、組合せ係数の不適切な構成(すなわち、広く使われている和対1バージョン)が生成分布の期待シフトをもたらすことを厳密に確認する。
本稿では,誘導係数を緩和したReCFGを提案する。
このようにして、修正された係数は観測されたデータをトラバースすることで容易に事前計算でき、サンプリング速度はほとんど影響を受けない。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Classifier-Free Guidance is a Predictor-Corrector [8.970133799609041]
CFGはテキスト・画像拡散モデルにおける条件付きサンプリングの主要な手法である。
我々は、CFGがDDPMやDDIMと異なる相互作用を示すことで、一般的な誤解を解消する。
SDE の極限では、CFG は実際に条件分布の DDIM 予測器とガンマ動力分布のランゲヴィン力学補正器とを結合していることを証明している。
論文 参考訳(メタデータ) (2024-08-16T20:00:55Z) - DiffEnc: Variational Diffusion with a Learned Encoder [14.045374947755922]
拡散過程にデータと深度に依存した平均関数を導入し,拡散損失を改良した。
提案するフレームワークであるDiffEncは,CIFAR-10の確率を統計的に有意に向上させる。
論文 参考訳(メタデータ) (2023-10-30T17:54:36Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Decoupled Kullback-Leibler Divergence Loss [90.54331083430597]
我々は、クルバック・リブラー(KL)の除算損失がデカップリングカルバック・リブラー(DKL)の除算損失と等価であることを証明した。
我々はKL/DKLにクラスワイドなグローバル情報を導入し、個々のサンプルからバイアスを取ります。
提案手法は,新たな最先端の対人ロバスト性を公衆のリーダーボード上で実現する。
論文 参考訳(メタデータ) (2023-05-23T11:17:45Z) - COCO-DR: Combating Distribution Shifts in Zero-Shot Dense Retrieval with
Contrastive and Distributionally Robust Learning [26.019193895709087]
COCO-DRはソーストレーニングタスクとターゲットシナリオの間の分散シフトに対処する。
未確認のターゲットクエリの準備には、異なるソースクエリクラスタからのCOCO-DRリウェイトサンプルを使用する。
本分析は,COCO-DRの分散シフト対策効果とゼロショット精度の向上の相関性を示した。
論文 参考訳(メタデータ) (2022-10-27T06:51:39Z) - Generalized Parametric Contrastive Learning [60.62901294843829]
一般化パラメトリックコントラスト学習(GPaCo/PaCo)は、不均衡データとバランスデータの両方でうまく機能する。
長い尾のベンチマークの実験は、長い尾の認識のための新しい最先端を示す。
論文 参考訳(メタデータ) (2022-09-26T03:49:28Z) - Barlow constrained optimization for Visual Question Answering [105.3372546782068]
本稿では,バーロウ理論(COB)を用いたVQAモデルの新たな正規化,制約付き最適化を提案する。
我々のモデルは、解答と画像+クエストを、本質的に同じ意味情報である2つの異なる視点として考える、解答埋め込み空間と結合空間を整合させる。
最先端のGEモデルに基づく場合、VQAの精度はVQA-CP v2データセットとVQA v2データセットでそれぞれ1.4%向上する。
論文 参考訳(メタデータ) (2022-03-07T21:27:40Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - COVID-19 Pneumonia Severity Prediction using Hybrid
Convolution-Attention Neural Architectures [6.162410142452926]
本稿では,調査データセットの極めて少ないデータシナリオを対象とした,データ中心の事前学習を提案する。
次に,TransformerとDense Associative Memoryの自己アテンションを利用した2つのハイブリッド畳み込み型ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-06T15:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。