Fugu-MT 論文翻訳(概要): Conditional Panoramic Image Generation via Masked Autoregressive Modeling

論文の概要: Conditional Panoramic Image Generation via Masked Autoregressive Modeling

arxiv url: http://arxiv.org/abs/2505.16862v1
Date: Thu, 22 May 2025 16:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.45053
Title: Conditional Panoramic Image Generation via Masked Autoregressive Modeling
Title（参考訳）: マスク付き自己回帰モデルによる条件パノラマ画像生成
Authors: Chaoyang Wang, Xiangtai Li, Lu Qi, Xiaofan Lin, Jinbin Bai, Qianyu Zhou, Yunhai Tong,
Abstract要約: 本稿では,これらの課題に対処するために,マスク付き自己回帰モデルを活用した統合フレームワークパノラマ自動回帰モデル(PAR)を提案する。既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円パディングを導入する。実験では、テキスト・ツー・イメージ生成とパノラマ・アパインティング・タスクの競争性能を示す。
参考スコア（独自算出の注目度）: 35.624070746282186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in panoramic image generation has underscored two critical limitations in existing approaches. First, most methods are built upon diffusion models, which are inherently ill-suited for equirectangular projection (ERP) panoramas due to the violation of the identically and independently distributed (i.i.d.) Gaussian noise assumption caused by their spherical mapping. Second, these methods often treat text-conditioned generation (text-to-panorama) and image-conditioned generation (panorama outpainting) as separate tasks, relying on distinct architectures and task-specific data. In this work, we propose a unified framework, Panoramic AutoRegressive model (PAR), which leverages masked autoregressive modeling to address these challenges. PAR avoids the i.i.d. assumption constraint and integrates text and image conditioning into a cohesive architecture, enabling seamless generation across tasks. To address the inherent discontinuity in existing generative models, we introduce circular padding to enhance spatial coherence and propose a consistency alignment strategy to improve generation quality. Extensive experiments demonstrate competitive performance in text-to-image generation and panorama outpainting tasks while showcasing promising scalability and generalization capabilities.
Abstract（参考訳）: パノラマ画像生成の最近の進歩は、既存のアプローチにおける2つの重要な限界を浮き彫りにした。第一に、ほとんどの手法は拡散モデルに基づいて構築されるが、これは本質的には等方射影(ERP)パノラマに不適合である。第二に、これらの手法は、異なるアーキテクチャとタスク固有のデータに依存して、テキスト条件付き生成(text-to-panorama)と画像条件付き生成(panorama outpainting)を別々のタスクとして扱うことが多い。本研究では,これらの課題に対処するために,マスク付き自己回帰モデルを活用する統合フレームワークであるパノラマ自動回帰モデル(PAR)を提案する。 PAR は i.d. の仮定制約を回避し、テキストとイメージコンディショニングを結合アーキテクチャに統合し、タスク間のシームレスな生成を可能にする。既存の生成モデルに固有の不連続性に対処するため,空間コヒーレンスを高めるために円形パディングを導入し,生成品質を向上させるための整合性整合戦略を提案する。大規模な実験では、テキスト・ツー・イメージ生成とパノラマ出力タスクにおいて、有望なスケーラビリティと一般化能力を示しながら、競争性能を実証している。

関連論文リスト

Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model [87.23753533733046]
テキストと画像の両モードをまたいで高速かつ並列に生成できる,統一的な離散拡散変換器であるMudditを導入する。 Mudditは、スクラッチからトレーニングされた以前の統一拡散モデルとは異なり、トレーニング済みのテキストからイメージまでのバックボーンから、強力な視覚的事前情報を軽量のテキストデコーダに統合する。
論文参考訳（メタデータ） (2025-05-29T16:15:48Z)
PacTure: Efficient PBR Texture Generation on Packed Views with Visual Autoregressive Models [73.4445896872942]
PacTureは、未ドメインの3Dメッシュから物理ベースのレンダリング(PBR)素材テクスチャを生成するためのフレームワークである。ビューパッキング(View Packing)は、ビュー毎の有効解像度を高める新しいテクニックである。
論文参考訳（メタデータ） (2025-05-28T14:23:30Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models [22.042487298092883]
RealGeneralは、条件付きフレーム予測タスクとして画像生成を再構成する新しいフレームワークである。カスタマイズされた生成の被写体類似性が14.5%向上し、キャニー・ツー・イメージの画質が10%向上した。
論文参考訳（メタデータ） (2025-03-13T14:31:52Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文参考訳（メタデータ） (2024-07-10T19:58:04Z)
MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-15T17:55:56Z)
DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文参考訳（メタデータ） (2024-03-11T03:24:44Z)
Image Inpainting via Tractable Steering of Diffusion Models [48.16994134964729]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
論文参考訳（メタデータ） (2023-11-28T21:14:02Z)
LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文参考訳（メタデータ） (2023-05-19T10:29:42Z)
Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。 CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-07-21T22:19:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。