論文の概要: Wavelets Are All You Need for Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2406.19997v2
- Date: Tue, 19 Nov 2024 12:28:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:44.561420
- Title: Wavelets Are All You Need for Autoregressive Image Generation
- Title(参考訳): 自動回帰画像生成に必要なウェーブレット
- Authors: Wael Mattar, Idan Levy, Nir Sharon, Shai Dekel,
- Abstract要約: 本稿では,2つの主成分をベースとした自己回帰画像生成手法を提案する。
1つ目はウェーブレット画像符号化で、画像の視覚的詳細を粗いものから細部までトークン化することができる。
2つ目は、アーキテクチャが再設計され、トークンシーケンスに最適化された言語トランスフォーマーの変種である。
- 参考スコア(独自算出の注目度): 1.187456026346823
- License:
- Abstract: In this paper, we take a new approach to autoregressive image generation that is based on two main ingredients. The first is wavelet image coding, which allows to tokenize the visual details of an image from coarse to fine details by ordering the information starting with the most significant bits of the most significant wavelet coefficients. The second is a variant of a language transformer whose architecture is re-designed and optimized for token sequences in this 'wavelet language'. The transformer learns the significant statistical correlations within a token sequence, which are the manifestations of well-known correlations between the wavelet subbands at various resolutions. We show experimental results with conditioning on the generation process.
- Abstract(参考訳): 本稿では,2つの主成分をベースとした自己回帰画像生成手法を提案する。
1つ目はウェーブレット画像符号化であり、最も重要なウェーブレット係数の最も重要なビットから始まる情報を順序付けすることで、粗い画像から細部まで画像の視覚的詳細をトークン化することができる。
2つ目は、アーキテクチャが再設計され、この'ウェーブレット言語'のトークンシーケンスに最適化された言語トランスフォーマーの変種である。
変換器はトークン列内の有意な統計的相関を学習し、これは様々な解像度でウェーブレットサブバンド間のよく知られた相関の現れである。
生成過程の条件付けによる実験結果を示す。
関連論文リスト
- Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Exploring Invariance in Images through One-way Wave Equations [96.90549064390608]
本稿では,画像画像上の不等式が一方向の波動方程式と潜時速度の組を共有していることを実証的に明らかにする。
本稿では,各画像が対応する初期条件に符号化される直感的なエンコーダ・デコーダ・フレームワークを用いて実演する。
論文 参考訳(メタデータ) (2023-10-19T17:59:37Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - High-Resolution Complex Scene Synthesis with Transformers [6.445605125467574]
深層生成モデルによる複雑なシーン画像の粗粒合成が最近人気を集めている。
本稿では, 生成モデルが, 追加の目的を持たず, 純粋帰納的学習に基づく, この課題に対するアプローチを提案する。
提案システムは,所定のレイアウトに整合した高品質な画像を合成可能であることを示す。
論文 参考訳(メタデータ) (2021-05-13T17:56:07Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Taming Transformers for High-Resolution Image Synthesis [16.86600007830682]
トランスフォーマーはシーケンシャルデータで長距離インタラクションを学ぶように設計されている。
それらは局所的な相互作用を優先する誘導バイアスを含まない。
これは表現力があるが、高解像度画像のような長いシーケンスでは計算不可能である。
本稿では,CNNの誘導バイアスとトランスの表現力を組み合わせることで,高分解能画像のモデル化と合成が可能となることを示す。
論文 参考訳(メタデータ) (2020-12-17T18:57:28Z) - Spatially-Adaptive Pixelwise Networks for Fast Image Translation [57.359250882770525]
高速かつ効率的な画像-画像変換を目的とした新しいジェネレータアーキテクチャを提案する。
私たちはピクセルワイズネットワークを使用します。つまり、各ピクセルは他のピクセルとは独立して処理されます。
私たちのモデルは最先端のベースラインよりも最大18倍高速です。
論文 参考訳(メタデータ) (2020-12-05T10:02:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。