論文の概要: L-MAGIC: Language Model Assisted Generation of Images with Coherence
- arxiv url: http://arxiv.org/abs/2406.01843v1
- Date: Mon, 3 Jun 2024 23:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 20:32:51.363566
- Title: L-MAGIC: Language Model Assisted Generation of Images with Coherence
- Title(参考訳): L-MAGIC:コヒーレンスを用いた画像生成支援言語モデル
- Authors: Zhipeng Cai, Matthias Mueller, Reiner Birkl, Diana Wofk, Shao-Yen Tseng, JunDa Cheng, Gabriela Ben-Melech Stan, Vasudev Lal, Michael Paulitsch,
- Abstract要約: 単一入力画像からパノラマシーンを生成する新しい手法であるL-MAGICを提案する。
L-MAGICは、微調整なしで事前訓練された拡散と言語モデルを利用し、ゼロショット性能を保証する。
結果として得られたパノラマシーンは、人間の評価において70%以上の選好で、関連する作品と比較して、シーンレイアウトと視点表示の質が向上している。
- 参考スコア(独自算出の注目度): 9.71608940269927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the current era of generative AI breakthroughs, generating panoramic scenes from a single input image remains a key challenge. Most existing methods use diffusion-based iterative or simultaneous multi-view inpainting. However, the lack of global scene layout priors leads to subpar outputs with duplicated objects (e.g., multiple beds in a bedroom) or requires time-consuming human text inputs for each view. We propose L-MAGIC, a novel method leveraging large language models for guidance while diffusing multiple coherent views of 360 degree panoramic scenes. L-MAGIC harnesses pre-trained diffusion and language models without fine-tuning, ensuring zero-shot performance. The output quality is further enhanced by super-resolution and multi-view fusion techniques. Extensive experiments demonstrate that the resulting panoramic scenes feature better scene layouts and perspective view rendering quality compared to related works, with >70% preference in human evaluations. Combined with conditional diffusion models, L-MAGIC can accept various input modalities, including but not limited to text, depth maps, sketches, and colored scripts. Applying depth estimation further enables 3D point cloud generation and dynamic scene exploration with fluid camera motion. Code is available at https://github.com/IntelLabs/MMPano. The video presentation is available at https://youtu.be/XDMNEzH4-Ec?list=PLG9Zyvu7iBa0-a7ccNLO8LjcVRAoMn57s.
- Abstract(参考訳): 生成AIのブレークスルーの時代において、単一の入力画像からパノラマシーンを生成することは、依然として重要な課題である。
既存のほとんどのメソッドは拡散に基づく反復的もしくは同時多視点インペイントを使用する。
しかし、グローバルなシーンレイアウトの事前が欠如しているため、重複したオブジェクト(例えば、寝室の複数のベッド)をサブパー出力したり、ビューごとに人間のテキスト入力に時間を要する。
L-MAGICは,360度パノラマシーンの複数のコヒーレントなビューを拡散しながら,大規模言語モデルを利用した指導手法を提案する。
L-MAGICは、微調整なしで事前訓練された拡散と言語モデルを利用し、ゼロショット性能を保証する。
出力品質は超解像・多視点融合技術によりさらに向上する。
大規模な実験により、パノラマシーンは、人間の評価において70%以上の選好で、関連する作品と比較して、シーンレイアウトと視点表示の質が向上していることが示された。
条件付き拡散モデルと組み合わせることで、L-MAGICはテキスト、深度マップ、スケッチ、色付きスクリプトなど、様々な入力モダリティを受け入れることができる。
さらに深度推定を適用することで、3Dポイントクラウドの生成と流体カメラモーションによる動的シーン探索が可能になる。
コードはhttps://github.com/IntelLabs/MMPano.comで入手できる。
ビデオプレゼンテーションはhttps://youtu.be/XDMNEzH4-Ec?
list=PLG9Zyvu7iBa0-a7ccNLO8LjcVRAoMn57s。
関連論文リスト
- Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Text2Immersion: Generative Immersive Scene with 3D Gaussians [14.014016090679627]
Text2Immersionは、テキストプロンプトから高品質な3D没入シーンを生成するためのエレガントな方法である。
我々のシステムは、品質と多様性をレンダリングする他の手法を超越し、テキスト駆動の3Dシーン生成に向けてさらに前進している。
論文 参考訳(メタデータ) (2023-12-14T18:58:47Z) - Kosmos-G: Generating Images in Context with Multimodal Large Language Models [117.0259361818715]
現在の被写体駆動画像生成法では、テストタイムチューニングが必要であり、インターリーブされたマルチイメージとテキスト入力を受け付けない。
本稿では,マルチモーダル大規模言語モデルの高度なマルチモーダル認識機能を活用するモデルであるKosmos-Gを提案する。
Kosmos-Gは、インターリーブされたマルチイメージとテキスト入力によるゼロショットの主観的生成の印象的な能力を示す。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Make-It-4D: Synthesizing a Consistent Long-Term Dynamic Scene Video from
a Single Image [59.18564636990079]
本研究では,1枚の画像のみから長期ダイナミック映像を合成する問題について検討する。
既存の方法は、一貫性のない永遠の視点を幻覚させるか、長いカメラの軌跡に苦しむかのいずれかである。
一つの画像から一貫した長期動画像を生成する新しい方法であるMake-It-4Dを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:53:50Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。