論文の概要: The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation
- arxiv url: http://arxiv.org/abs/2407.12579v1
- Date: Wed, 17 Jul 2024 14:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 16:56:39.825281
- Title: The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation
- Title(参考訳): 現実感と幻想:LLMによるプロンプト解釈によるシーン生成
- Authors: Yi Yao, Chan-Feng Hsu, Jhe-Hao Lin, Hongxia Xie, Terence Lin, Yi-Ning Huang, Hong-Han Shuai, Wen-Huang Cheng,
- Abstract要約: この研究は、拡散モデルが芸術的創造性や専門知識を必要とするプロンプトから画像を生成する方法を探る。
本稿では,現実的なシナリオと幻想的なシナリオを融合した新しい評価フレームワークであるRealistic-Fantasy Benchmark(RFBench)を紹介する。
広汎な人的評価とGPTに基づく構成的評価は、我々のアプローチが最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 26.221866701670546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of recent advancements in text-to-image generation, limitations persist in handling complex and imaginative prompts due to the restricted diversity and complexity of training data. This work explores how diffusion models can generate images from prompts requiring artistic creativity or specialized knowledge. We introduce the Realistic-Fantasy Benchmark (RFBench), a novel evaluation framework blending realistic and fantastical scenarios. To address these challenges, we propose the Realistic-Fantasy Network (RFNet), a training-free approach integrating diffusion models with LLMs. Extensive human evaluations and GPT-based compositional assessments demonstrate our approach's superiority over state-of-the-art methods. Our code and dataset is available at https://leo81005.github.io/Reality-and-Fantasy/.
- Abstract(参考訳): 近年のテキスト・画像生成の進歩にもかかわらず、訓練データの多様性と複雑さが制限されているため、複雑なプロンプトや想像上のプロンプトを扱う際の制限は持続している。
この研究は、拡散モデルが芸術的創造性や専門知識を必要とするプロンプトから画像を生成する方法を探る。
本稿では,現実的なシナリオと幻想的なシナリオを融合した新しい評価フレームワークであるRealistic-Fantasy Benchmark(RFBench)を紹介する。
これらの課題に対処するために,LLMと拡散モデルを統合するトレーニングフリーアプローチであるRealistic-Fantasy Network (RFNet)を提案する。
広汎な人的評価とGPTに基づく構成的評価は、我々のアプローチが最先端の手法よりも優れていることを示す。
私たちのコードとデータセットはhttps://leo81005.github.io/Reality-and-Fantasy/で公開されています。
関連論文リスト
- Cross-Cultural Fashion Design via Interactive Large Language Models and Diffusion Models [0.0]
ファッションコンテンツ生成は、人工知能とクリエイティブデザインの交差点における新興分野である。
既存の手法は、文化的バイアス、限られたスケーラビリティ、テキストプロンプトと生成されたビジュアルの整合性に苦しむ。
本稿では,Large Language Models (LLMs) とLatent Diffusion Models (LDMs) を統合し,これらの課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-26T15:57:16Z) - TexAVi: Generating Stereoscopic VR Video Clips from Text Descriptions [0.562479170374811]
本稿では,既存の生成システムを融合してテキストから立体視のバーチャルリアリティービデオを作成する手法を提案する。
私たちの研究は、バーチャルリアリティーシミュレーションのような分野において自然言語駆動グラフィックスを使うことのエキサイティングな可能性を強調します。
論文 参考訳(メタデータ) (2025-01-02T09:21:03Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - ORACLE: Leveraging Mutual Information for Consistent Character Generation with LoRAs in Diffusion Models [3.7599363231894185]
単一テキストプロンプトから一貫した文字表現を生成するための新しいフレームワークを提案する。
我々のフレームワークは、一貫した視覚的アイデンティティを持つ文字を生成する既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-06-04T23:39:08Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - RealCompo: Balancing Realism and Compositionality Improves Text-to-Image Diffusion Models [42.20230095700904]
RealCompoは、新しいトレーニングフリーで、移行フレンドリーなテキスト・ツー・イメージ生成フレームワークである。
復調過程における2つのモデルの強みのバランスをとるために,直感的で斬新なバランサを提案する。
我々のRealCompoは、幅広い空間認識画像拡散モデルとスタイル化された拡散モデルでシームレスに拡張できる。
論文 参考訳(メタデータ) (2024-02-20T10:56:52Z) - A Dataset and Benchmark for Copyright Infringement Unlearning from Text-to-Image Diffusion Models [52.49582606341111]
著作権法は、クリエイティブ作品を再生、配布、収益化する排他的権利をクリエイターに与えている。
テキスト・ツー・イメージ・ジェネレーションの最近の進歩は、著作権の執行に重大な課題をもたらしている。
CLIP、ChatGPT、拡散モデルを調和させてデータセットをキュレートする新しいパイプラインを導入する。
論文 参考訳(メタデータ) (2024-01-04T11:14:01Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。