論文の概要: A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
- arxiv url: http://arxiv.org/abs/2410.01912v1
- Date: Wed, 2 Oct 2024 18:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 10:04:30.280084
- Title: A Spark of Vision-Language Intelligence: 2-Dimensional Autoregressive Transformer for Efficient Finegrained Image Generation
- Title(参考訳): 視覚言語知能の火花:高精細画像生成のための2次元自己回帰変換器
- Authors: Liang Chen, Sinan Tan, Zefan Cai, Weichu Xie, Haozhe Zhao, Yichi Zhang, Junyang Lin, Jinze Bai, Tianyu Liu, Baobao Chang,
- Abstract要約: 本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。
DnD-Transformerは、新しい自己回帰方向、テクトモデル深さとシーケンス長方向を導入することで、画像のより多くのコードを予測する。
リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティの理解を実証する。
- 参考スコア(独自算出の注目度): 45.24970921978198
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work tackles the information loss bottleneck of vector-quantization (VQ) autoregressive image generation by introducing a novel model architecture called the 2-Dimensional Autoregression (DnD) Transformer. The DnD-Transformer predicts more codes for an image by introducing a new autoregression direction, \textit{model depth}, along with the sequence length direction. Compared to traditional 1D autoregression and previous work utilizing similar 2D image decomposition such as RQ-Transformer, the DnD-Transformer is an end-to-end model that can generate higher quality images with the same backbone model size and sequence length, opening a new optimization perspective for autoregressive image generation. Furthermore, our experiments reveal that the DnD-Transformer's potential extends beyond generating natural images. It can even generate images with rich text and graphical elements in a self-supervised manner, demonstrating an understanding of these combined modalities. This has not been previously demonstrated for popular vision generative models such as diffusion models, showing a spark of vision-language intelligence when trained solely on images. Code, datasets and models are open at https://github.com/chenllliang/DnD-Transformer.
- Abstract(参考訳): 本研究は,ベクトル量子化(VQ)自己回帰画像生成における情報損失ボトルネックに対処し,2次元自己回帰変換器(DnD)と呼ばれる新しいモデルアーキテクチャを導入する。
DnD-Transformerは、シーケンス長方向とともに、新しい自己回帰方向である \textit{model depth} を導入することで、画像のより多くのコードを予測する。
従来の1Dオートレグレスや、RQ-Transformerのような類似の2D画像分解を利用した以前の作業と比較すると、DnD-Transformerは、バックボーンモデルのサイズとシーケンス長が同じで高品質な画像を生成できるエンドツーエンドモデルであり、自動回帰画像生成のための新たな最適化視点を開くことができる。
さらに,本実験により,DnD-Transformerの潜在能力は自然画像の生成を超えることが判明した。
リッチなテキストとグラフィカルな要素を自己監督的に生成し、これらの組み合わせのモダリティを理解することさえできる。
これは拡散モデルのような一般的な視覚生成モデルでは以前は実証されておらず、画像のみに訓練された場合、視覚言語知能の火花が示される。
コード、データセット、モデルはhttps://github.com/chenllliang/DnD-Transformer.comで公開されている。
関連論文リスト
- Autoregressive model path dependence near Ising criticality [0.0]
2次元イジングモデルにおける臨界相関の再構成について検討した。
有限サイズ2次元格子に課される多数の異なる1次元自己回帰列のトレーニング性能を比較した。
論文 参考訳(メタデータ) (2024-08-28T11:21:33Z) - Hybrid Fourier Score Distillation for Efficient One Image to 3D Object Generation [42.83810819513537]
単一の画像から3D生成は、制御可能な3D資産を作る上で重要な要素である。
2D-3Dハイブリッドフーリエスコア蒸留目標関数hy-FSDを提案する。
hy-FSDは既存の3D生成手法に統合でき、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-31T08:11:25Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。