論文の概要: Distilling semantically aware orders for autoregressive image generation
- arxiv url: http://arxiv.org/abs/2504.17069v1
- Date: Wed, 23 Apr 2025 19:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.159012
- Title: Distilling semantically aware orders for autoregressive image generation
- Title(参考訳): 自己回帰画像生成のための意味認識順序の蒸留
- Authors: Rishav Pramanik, Antoine Poupon, Juan A. Rodriguez, Masih Aminbeidokhti, David Vazquez, Christopher Pal, Zhaozheng Yin, Marco Pedersoli,
- Abstract要約: モデルに任意の順序でパッチを生成するようにトレーニングすることで、生成中の各パッチの内容と場所の両方を推測できることを示す。
抽出したオーダーを用いて、任意の順序モデルを微調整し、高品質な画像を生成する。
- 参考スコア(独自算出の注目度): 14.752727078647684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive patch-based image generation has recently shown competitive results in terms of image quality and scalability. It can also be easily integrated and scaled within Vision-Language models. Nevertheless, autoregressive models require a defined order for patch generation. While a natural order based on the dictation of the words makes sense for text generation, there is no inherent generation order that exists for image generation. Traditionally, a raster-scan order (from top-left to bottom-right) guides autoregressive image generation models. In this paper, we argue that this order is suboptimal, as it fails to respect the causality of the image content: for instance, when conditioned on a visual description of a sunset, an autoregressive model may generate clouds before the sun, even though the color of clouds should depend on the color of the sun and not the inverse. In this work, we show that first by training a model to generate patches in any-given-order, we can infer both the content and the location (order) of each patch during generation. Secondly, we use these extracted orders to finetune the any-given-order model to produce better-quality images. Through our experiments, we show on two datasets that this new generation method produces better images than the traditional raster-scan approach, with similar training costs and no extra annotations.
- Abstract(参考訳): 自動回帰パッチベースの画像生成は、最近、画像の品質とスケーラビリティの点で競合する結果を示している。
また、Vision-Languageモデルに簡単に統合してスケールすることもできる。
それでも、自動回帰モデルはパッチ生成のために定義された順序を必要とする。
単語の指示に基づく自然順序は、テキスト生成には意味があるが、画像生成には固有の生成順序は存在しない。
伝統的に、ラスタスキャンの順序(左上から右下まで)は自己回帰画像生成モデルを導く。
本稿では、この順序は、画像内容の因果関係を尊重することができないため、準最適であると論じる:例えば、日没の視覚的記述に条件付けされた場合、自己回帰モデルは、雲の色が太陽の色に依存するのではなく、逆ではなく太陽の色に依存するとしても、太陽よりも先に雲を生成することができる。
本研究では,まずモデルをトレーニングして,任意の順序でパッチを生成することで,生成中の各パッチの内容と位置(順序)の両方を推測できることを示す。
第二に、これらの抽出された順序を用いて、より高品質な画像を生成するために、任意のギブンオーダーモデルを微調整する。
実験により,本手法は従来のラスタスキャン手法よりも優れた画像を生成するため,同様のトレーニングコストと付加アノテーションを伴わない2つのデータセットが得られた。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Length-Controllable Image Captioning [67.2079793803317]
簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。
自己回帰的な性質のため、既存のモデルの計算複雑性は、生成されたキャプションの長さが大きくなるにつれて線形的に増加する。
さらに,非自己回帰的画像キャプション手法を考案し,キャプションを時間的無関係な複雑さで生成する。
論文 参考訳(メタデータ) (2020-07-19T03:40:51Z) - GANILLA: Generative Adversarial Networks for Image to Illustration
Translation [12.55972766570669]
現状のイメージ・ツー・イメージ翻訳モデルでは,スタイルとコンテンツのいずれかを変換することに成功したが,同時に両者を転送することはできなかった。
本稿では,この問題に対処する新しいジェネレータネットワークを提案し,その結果のネットワークがスタイルとコンテンツのバランスを良くすることを示す。
論文 参考訳(メタデータ) (2020-02-13T17:12:09Z) - Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。
実験はMicrosoftデータセット上で行われる。
その結果,提案手法は現代の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-01-18T12:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。