論文の概要: PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs
- arxiv url: http://arxiv.org/abs/2411.15867v2
- Date: Mon, 10 Mar 2025 04:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:41:00.868001
- Title: PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs
- Title(参考訳): PanoLlama:次世代LCMによる無限パノラマとコヒーレントパノラマの生成
- Authors: Teng Zhou, Xiaoyu Zhang, Yongchuan Tang,
- Abstract要約: パノラマ画像生成(PIG)は任意の長さのコヒーレントな画像を作成することを目的としている。
パノラマ(PanoLlama)は,パノラマ生成と自己回帰パラダイムを融合した,永続的で一貫性のあるパノラマ生成を実現する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 10.970010947605289
- License:
- Abstract: Panoramic Image Generation (PIG) aims to create coherent images of arbitrary lengths. Most existing methods fall in the joint diffusion paradigm, but their complex and heuristic crop connection designs often limit their ability to achieve multilevel coherence. By deconstructing this challenge into its core components, we find it naturally aligns with next-token prediction, leading us to adopt an autoregressive (AR) paradigm for PIG modeling. However, existing visual AR (VAR) models are limited to fixed-size generation, lacking the capability to produce panoramic images. In this paper, we propose PanoLlama, a novel framework that achieves endless and coherent panorama generation with the autoregressive paradigm. Our approach develops a training-free strategy that utilizes token redirection to overcome the size limitations of existing VAR models, enabling next-crop prediction in both horizontal and vertical directions. This refreshes the PIG pipeline while achieving SOTA performance in coherence (47.50\%), fidelity(28.16\%), and aesthetics (15\%). Additionally, PanoLlama supports applications other PIG methods cannot achieve, including mask-free layout control, multi-scale and multi-guidance synthesis. To facilitate standardized evaluation, we also establish a dataset with 1,000 prompts spanning 100+ themes, providing a new testing benchmark for PIG research.
- Abstract(参考訳): パノラマ画像生成(PIG)は任意の長さのコヒーレントな画像を作成することを目的としている。
既存のほとんどの手法は合同拡散パラダイムに該当するが、その複雑でヒューリスティックな作物の接続設計は多水準コヒーレンスを達成する能力を制限することがしばしばある。
この課題をコアコンポーネントに分解することで、自然に次世代の予測と一致することが分かり、PIGモデリングに自己回帰(AR)パラダイムを採用することにしました。
しかし、既存のビジュアルAR(VAR)モデルは、パノラマ画像を生成する能力に欠ける固定サイズ生成に限られている。
本稿では,パノラマを自己回帰的パラダイムで無限かつ一貫性のあるパノラマ生成を実現する新しいフレームワークであるパノラマを提案する。
提案手法では,トークンリダイレクトを利用して既存のVARモデルのサイズ制限を克服し,水平方向と垂直方向の両方で次のクロック予測を可能にする。
これにより、コヒーレンス(47.50 %)、忠実度(28.16 %)、美学(15 %)でSOTA性能を達成しつつ、PIGパイプラインを更新する。
さらに、PanoLlamaはマスクレスレイアウト制御、マルチスケール、マルチガイダンス合成など、他のPIGメソッドでは達成できないアプリケーションをサポートしている。
標準化された評価を容易にするために、100以上のテーマにまたがる1000のプロンプトを持つデータセットを確立し、PIG研究のための新しいテストベンチマークを提供する。
関連論文リスト
- CubeDiff: Repurposing Diffusion-Based Image Models for Panorama Generation [59.257513664564996]
テキストプロンプトや画像から360度パノラマを生成する新しい手法を提案する。
我々は多視点拡散モデルを用いて立方体の6つの面を合成する。
本モデルでは,テキストのきめ細かい制御,高解像度パノラマ画像の生成,トレーニングセットを越えた一般化を実現している。
論文 参考訳(メタデータ) (2025-01-28T18:59:49Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation [12.588962705218103]
既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介した。
勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
論文 参考訳(メタデータ) (2024-10-24T15:18:51Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - LSReGen: Large-Scale Regional Generator via Backward Guidance Framework [12.408195812609042]
制御可能な画像生成は 依然として課題です
トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。
本稿では,後方誘導の一般的な解釈を提供する新しい制御可能な生成フレームワークを提案する。
本稿では,高品質でレイアウトに適合した画像を生成するための大規模なレイアウト・ツー・イメージ手法であるLSReGenを紹介する。
論文 参考訳(メタデータ) (2024-07-21T05:44:46Z) - Obtaining Favorable Layouts for Multiple Object Generation [50.616875565173274]
大規模なテキスト・ツー・イメージモデルでは、テキスト・プロンプトに基づいて高品質で多様な画像を生成することができる。
しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。
誘導原理に基づく新しい手法を提案し、拡散モデルが最初にレイアウトを提案し、次にレイアウトグリッドを並べ替えることを可能にする。
これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。
論文 参考訳(メタデータ) (2024-05-01T18:07:48Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Unsupervised Cycle-consistent Generative Adversarial Networks for
Pan-sharpening [41.68141846006704]
本稿では,この問題を緩和するために,基礎的な真理を伴わずに,フルスケールの画像から学習する,教師なしの生成的敵対的枠組みを提案する。
PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。
提案手法は,フルスケール画像のパンシャーピング性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-20T09:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。