論文の概要: High-Resolution Image Synthesis via Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2411.14808v1
- Date: Fri, 22 Nov 2024 09:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:04:31.878926
- Title: High-Resolution Image Synthesis via Next-Token Prediction
- Title(参考訳): 次世代予測による高分解能画像合成
- Authors: Dengsheng Chen, Jie Hu, Tiezhu Yue, Xiaoming Wei,
- Abstract要約: D-JEPA$cdot$T2Iは,フローマッチング損失を取り入れたD-JEPAの拡張であり,連続的な解像度学習を可能にする。
我々は,次世代の予測により,最先端のテクスチャ高分解能画像合成を初めて達成した。
- 参考スコア(独自算出の注目度): 13.131691198804127
- License:
- Abstract: Denoising with a Joint-Embedding Predictive Architecture (D-JEPA), an autoregressive model, has demonstrated outstanding performance in class-conditional image generation. However, the application of next-token prediction in high-resolution text-to-image generation remains underexplored. In this paper, we introduce D-JEPA$\cdot$T2I, an extension of D-JEPA incorporating flow matching loss, designed to enable data-efficient continuous resolution learning. D-JEPA$\cdot$T2I leverages a multimodal visual transformer to effectively integrate textual and visual features and adopts Visual Rotary Positional Embedding (VoPE) to facilitate continuous resolution learning. Furthermore, we devise a data feedback mechanism that significantly enhances data utilization efficiency. For the first time, we achieve state-of-the-art \textbf{high-resolution} image synthesis via next-token prediction. The experimental code and pretrained models will be open-sourced at \url{https://d-jepa.github.io/t2i}.
- Abstract(参考訳): 自己回帰モデルであるD-JEPA(Joint-Embedding Predictive Architecture)は,クラス条件画像生成において優れた性能を示した。
しかし、高解像度テキスト・画像生成における次世代の予測の適用については、まだ未定である。
本稿では,D-JEPA$\cdot$T2Iを提案する。
D-JEPA$\cdot$T2Iはマルチモーダル・ビジュアル・トランスフォーマーを利用してテキストと視覚機能を効果的に統合し、連続的な解像度学習を容易にするためにVisual Rotary Positional Embedding (VoPE)を採用している。
さらに,データ利用効率を大幅に向上させるデータフィードバック機構を考案した。
はじめて,次世代の予測による最先端の「textbf{high- resolution}」画像合成を実現した。
実験コードと事前訓練されたモデルは、 \url{https://d-jepa.github.io/t2i} でオープンソース化される。
関連論文リスト
- QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。