論文の概要: PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs
- arxiv url: http://arxiv.org/abs/2411.15867v2
- Date: Mon, 10 Mar 2025 04:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:05.201633
- Title: PanoLlama: Generating Endless and Coherent Panoramas with Next-Token-Prediction LLMs
- Title(参考訳): PanoLlama:次世代LCMによる無限パノラマとコヒーレントパノラマの生成
- Authors: Teng Zhou, Xiaoyu Zhang, Yongchuan Tang,
- Abstract要約: パノラマ画像生成(PIG)は任意の長さのコヒーレントな画像を作成することを目的としている。
パノラマ(PanoLlama)は,パノラマ生成と自己回帰パラダイムを融合した,永続的で一貫性のあるパノラマ生成を実現する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 10.970010947605289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoramic Image Generation (PIG) aims to create coherent images of arbitrary lengths. Most existing methods fall in the joint diffusion paradigm, but their complex and heuristic crop connection designs often limit their ability to achieve multilevel coherence. By deconstructing this challenge into its core components, we find it naturally aligns with next-token prediction, leading us to adopt an autoregressive (AR) paradigm for PIG modeling. However, existing visual AR (VAR) models are limited to fixed-size generation, lacking the capability to produce panoramic images. In this paper, we propose PanoLlama, a novel framework that achieves endless and coherent panorama generation with the autoregressive paradigm. Our approach develops a training-free strategy that utilizes token redirection to overcome the size limitations of existing VAR models, enabling next-crop prediction in both horizontal and vertical directions. This refreshes the PIG pipeline while achieving SOTA performance in coherence (47.50\%), fidelity(28.16\%), and aesthetics (15\%). Additionally, PanoLlama supports applications other PIG methods cannot achieve, including mask-free layout control, multi-scale and multi-guidance synthesis. To facilitate standardized evaluation, we also establish a dataset with 1,000 prompts spanning 100+ themes, providing a new testing benchmark for PIG research.
- Abstract(参考訳): パノラマ画像生成(PIG)は任意の長さのコヒーレントな画像を作成することを目的としている。
既存のほとんどの手法は合同拡散パラダイムに該当するが、その複雑でヒューリスティックな作物の接続設計は多水準コヒーレンスを達成する能力を制限することがしばしばある。
この課題をコアコンポーネントに分解することで、自然に次世代の予測と一致することが分かり、PIGモデリングに自己回帰(AR)パラダイムを採用することにしました。
しかし、既存のビジュアルAR(VAR)モデルは、パノラマ画像を生成する能力に欠ける固定サイズ生成に限られている。
本稿では,パノラマを自己回帰的パラダイムで無限かつ一貫性のあるパノラマ生成を実現する新しいフレームワークであるパノラマを提案する。
提案手法では,トークンリダイレクトを利用して既存のVARモデルのサイズ制限を克服し,水平方向と垂直方向の両方で次のクロック予測を可能にする。
これにより、コヒーレンス(47.50 %)、忠実度(28.16 %)、美学(15 %)でSOTA性能を達成しつつ、PIGパイプラインを更新する。
さらに、PanoLlamaはマスクレスレイアウト制御、マルチスケール、マルチガイダンス合成など、他のPIGメソッドでは達成できないアプリケーションをサポートしている。
標準化された評価を容易にするために、100以上のテーマにまたがる1000のプロンプトを持つデータセットを確立し、PIG研究のための新しいテストベンチマークを提供する。
関連論文リスト
- Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching [34.112157859384645]
本稿では,合理化スケール設計を特徴とする次世代のスケール予測手法であるFlowARを紹介する。
これにより、VARの複雑なマルチスケール残留トークン化器が不要になる。
課題であるImageNet-256ベンチマークにおけるFlowARの有効性を検証する。
論文 参考訳(メタデータ) (2024-12-19T18:59:31Z) - M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Multi-Scale Diffusion: Enhancing Spatial Layout in High-Resolution Panoramic Image Generation [12.588962705218103]
既存のパノラマ画像生成フレームワークを複数の解像度レベルまで拡張するプラグイン・アンド・プレイモジュールであるMulti-Scale Diffusion(MSD)フレームワークを紹介した。
勾配降下法を利用して,低分解能画像の構造情報を高分解能出力に効果的に組み込む。
論文 参考訳(メタデータ) (2024-10-24T15:18:51Z) - Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - ImageFolder: Autoregressive Image Generation with Folded Tokens [51.815319504939396]
トークン長の増大は、画像再構成の品質を改善するための一般的なアプローチである。
トークン長に関する復元と生成品質の間にはトレードオフがある。
本稿では,自己回帰モデルにおいて折り畳み可能な空間整列型画像トークンを提供するセマンティック・トークンライザであるイメージを提案する。
論文 参考訳(メタデータ) (2024-10-02T17:06:39Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - LSReGen: Large-Scale Regional Generator via Backward Guidance Framework [12.408195812609042]
制御可能な画像生成は 依然として課題です
トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。
本稿では,後方誘導の一般的な解釈を提供する新しい制御可能な生成フレームワークを提案する。
本稿では,高品質でレイアウトに適合した画像を生成するための大規模なレイアウト・ツー・イメージ手法であるLSReGenを紹介する。
論文 参考訳(メタデータ) (2024-07-21T05:44:46Z) - Obtaining Favorable Layouts for Multiple Object Generation [50.616875565173274]
大規模なテキスト・ツー・イメージモデルでは、テキスト・プロンプトに基づいて高品質で多様な画像を生成することができる。
しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。
誘導原理に基づく新しい手法を提案し、拡散モデルが最初にレイアウトを提案し、次にレイアウトグリッドを並べ替えることを可能にする。
これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。
論文 参考訳(メタデータ) (2024-05-01T18:07:48Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Multiscale Latent-Guided Entropy Model for LiDAR Point Cloud Compression [18.897023700334458]
LiDAR点雲(LPC)の非均一分布と極めてスパースの性質は、その高効率圧縮に重大な課題をもたらす。
本稿では,従来のLPCをオクツリー構造にエンコードし,階層的にオクツリーエントロピーモデルを階層的に分解する,エンド・ツー・エンドで完全に構成された新しいディープ・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-26T08:36:11Z) - GLEAN: Generative Latent Bank for Image Super-Resolution and Beyond [99.6233044915999]
画像超解像の性能向上のために,StyleGAN や BigGAN などの事前学習型生成支援ネットワーク (GAN) が潜時バンクとして利用できることを示す。
我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することで、既存のプラクティスを越えている。
画像のカラー化やブラインド画像の復元など,さまざまなタスクにメソッドを拡張し,提案手法が既存の手法と比較して良好に動作することを示す。
論文 参考訳(メタデータ) (2022-07-29T17:59:01Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Unsupervised Cycle-consistent Generative Adversarial Networks for
Pan-sharpening [41.68141846006704]
本稿では,この問題を緩和するために,基礎的な真理を伴わずに,フルスケールの画像から学習する,教師なしの生成的敵対的枠組みを提案する。
PANおよびMS画像から2ストリーム生成器を用いてモダリティ特異的特徴を抽出し,特徴領域での融合を行い,パンシャープ画像の再構成を行う。
提案手法は,フルスケール画像のパンシャーピング性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-20T09:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。