論文の概要: BRIGHT: Bi-level Feature Representation of Image Collections using
Groups of Hash Tables
- arxiv url: http://arxiv.org/abs/2305.18601v1
- Date: Mon, 29 May 2023 20:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:30:23.952112
- Title: BRIGHT: Bi-level Feature Representation of Image Collections using
Groups of Hash Tables
- Title(参考訳): BRIGHT:ハッシュテーブル群を用いた画像コレクションの2レベル特徴表現
- Authors: Dingdong Yang, Yizhi Wang, Ali Mahdavi-Amiri, Hao Zhang
- Abstract要約: 我々の表現は、画像の不連続なキーを符号化するオートエンコーダによって学習される。
キーコードとハッシュテーブルは、明確に定義された勾配流とともに継続的に訓練されます。
キーコード空間にLDMを適用することで、LSUN-Churchおよびヒューマン・フェイス・データセットの画像合成における最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.019598567947712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BRIGHT, a bi-levelfeature representation for an imagecollection,
consisting of a per-image latent space on top of a multi-scale feature grid
space. Our representation is learned by an autoencoder to encode images
intocontinuouskey codes, which are used to retrieve features fromgroups of
multi-resolution hashtables. Our key codes and hash tables are trained together
continuously with well-defined gradient flows, leading to high usage of the
hash table entries and improved generative modeling compared to discrete Vector
Quantization (VQ). Differently from existing continuous representations such as
KL-regularized latent codes, our key codes are strictly bounded in scale and
variance. Overall, feature encoding by BRIGHT is compact, efficient to train,
and enables generative modeling over the image codes using state-of-the-art
generators such as latent diffusion models(LDMs). Experimental results show
that our method achieves comparable recon-struction results to VQ methods while
having a smaller and more efficient decoder network. By applying LDM over our
key code space, we achieve state-of-the-art performance on image synthesis on
the LSUN-Church and human-face datasets.
- Abstract(参考訳): 画像コレクションのためのbi-level feature表現であるbrightを,マルチスケールな機能グリッド空間上に,画像毎の潜在空間で表現する。
この表現はオートエンコーダによって学習され、イメージを連続キーコードにエンコードし、マルチレゾリューションハッシュテーブルの群から特徴を抽出します。
我々のキーコードとハッシュテーブルは、明確に定義された勾配流とともに連続的に訓練され、ハッシュテーブルエントリの高利用と、離散ベクトル量子化(VQ)と比較して生成モデリングの改善につながる。
kl正規化潜在符号のような既存の連続表現とは異なり、我々の重要なコードはスケールと分散で厳密に区切られている。
総じて、BRIGHTによる特徴符号化はコンパクトで訓練に効率的であり、遅延拡散モデル(LDM)のような最先端のジェネレータを用いて画像コード上で生成モデリングを可能にする。
提案手法は,より小型で効率的なデコーダネットワークを持ちながら,VQ手法に匹敵する再構成結果が得られることを示す。
キーコード空間にLDMを適用することで、LSUN-Churchおよびヒューマン・フェイス・データセットの画像合成における最先端のパフォーマンスを実現する。
関連論文リスト
- High Fidelity Image Synthesis With Deep VAEs In Latent Space [0.0]
階層的変動オートエンコーダ(VAE)を用いた高解像度マルチモーダルデータセットに高速でリアルな画像生成を提案する。
この2段階のセットアップでは、オートエンコーダがイメージをセマンティックな特徴に圧縮し、深いVAEでモデル化する。
我々は、BigGANに匹敵するImageNet-256データセット上で、FID9.34を達成する2段階アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T23:45:19Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - High-Quality Pluralistic Image Completion via Code Shared VQGAN [51.7805154545948]
高速な推論速度で高品質と多様性を両立させることができる多元画像補完のための新しい枠組みを提案する。
我々のフレームワークは、セマンティックにリッチな離散的なコードを効率的かつ堅牢に学習することができ、画像再構成の品質が大幅に向上する。
論文 参考訳(メタデータ) (2022-04-05T01:47:35Z) - Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model
and Concatenated Residual Modules [22.818632387206257]
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。
本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。
符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
論文 参考訳(メタデータ) (2021-07-14T02:54:22Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。