論文の概要: Learning Profitable NFT Image Diffusions via Multiple Visual-Policy
Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.11731v2
- Date: Thu, 17 Aug 2023 17:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:14:20.465372
- Title: Learning Profitable NFT Image Diffusions via Multiple Visual-Policy
Guided Reinforcement Learning
- Title(参考訳): 複数の視覚ポリティクス指導型強化学習によるNFT画像拡散の学習
- Authors: Huiguo He, Tianfu Wang, Huan Yang, Jianlong Fu, Nicholas Jing Yuan,
Jian Yin, Hongyang Chao, Qi Zhang
- Abstract要約: NFT画像に対する報酬として,複数ビジュアルポリシーを用いた拡散型生成フレームワークを提案する。
提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。
我々のフレームワークは、SOTAのアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができる。
- 参考スコア(独自算出の注目度): 69.60868581184366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of generating profitable Non-Fungible Token (NFT) images
from user-input texts. Recent advances in diffusion models have shown great
potential for image generation. However, existing works can fall short in
generating visually-pleasing and highly-profitable NFT images, mainly due to
the lack of 1) plentiful and fine-grained visual attribute prompts for an NFT
image, and 2) effective optimization metrics for generating high-quality NFT
images. To solve these challenges, we propose a Diffusion-based generation
framework with Multiple Visual-Policies as rewards (i.e., Diffusion-MVP) for
NFT images. The proposed framework consists of a large language model (LLM), a
diffusion-based image generator, and a series of visual rewards by design.
First, the LLM enhances a basic human input (such as "panda") by generating
more comprehensive NFT-style prompts that include specific visual attributes,
such as "panda with Ninja style and green background." Second, the
diffusion-based image generator is fine-tuned using a large-scale NFT dataset
to capture fine-grained image styles and accessory compositions of popular NFT
elements. Third, we further propose to utilize multiple visual-policies as
optimization goals, including visual rarity levels, visual aesthetic scores,
and CLIP-based text-image relevances. This design ensures that our proposed
Diffusion-MVP is capable of minting NFT images with high visual quality and
market value. To facilitate this research, we have collected the largest
publicly available NFT image dataset to date, consisting of 1.5 million
high-quality images with corresponding texts and market values. Extensive
experiments including objective evaluations and user studies demonstrate that
our framework can generate NFT images showing more visually engaging elements
and higher market value, compared with SOTA approaches.
- Abstract(参考訳): ユーザ入力テキストからNFT(Non-Fungible Token)画像を生成するタスクについて検討する。
近年の拡散モデルの発展は画像生成に大きな可能性を示している。
しかし、既存の作品は、主に不足のため、視覚的に供給され、高収益のNFT画像を生成するのに不足する可能性がある。
1)NFT画像のための多彩できめ細かな視覚特性プロンプト、及び
2)高品質なNFT画像を生成するための効果的な最適化指標。
これらの課題を解決するために,NFT画像に対する報酬(Diffusion-MVP)として,複数ビジュアルポリシーを用いた拡散生成フレームワークを提案する。
提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。
まず、LLMは「忍者スタイルと緑の背景を持つパンダ」のような特定の視覚特性を含むより包括的なNTTスタイルのプロンプトを生成することで、基本的な人間の入力(パンダなど)を強化する。
第2に、拡散に基づく画像生成装置は、大規模なNFTデータセットを用いて微調整され、一般的なNFT要素の微細な画像スタイルとアクセサリー構成をキャプチャする。
第3に,視覚的照度レベル,視覚的美的スコア,CLIPに基づくテキスト画像関連性など,複数の視覚政治を最適化目標として活用することを提案する。
この設計により、提案したDiffusion-MVPは、高い視覚的品質と市場価値でNFT画像をマイニングできる。
この研究を容易にするために、我々は150万の高品質画像と対応するテキストと市場価値からなる、これまでで最大のnftイメージデータセットを収集した。
客観的評価やユーザスタディを含む大規模な実験により、我々のフレームワークは、SOTAアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができることを示した。
関連論文リスト
- Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Deep Attentive Generative Adversarial Network for Photo-Realistic Image
De-Quantization [25.805568996596783]
減量子化は、高ビット深度画面に表示するための低ビット深度画像の視覚的品質を改善することができる。
本稿では,画像強度分解能の超解像を実現するためのDAGANアルゴリズムを提案する。
DenseResAttモジュールは、自己保持機構を備えた密集した残留ブロックで構成されている。
論文 参考訳(メタデータ) (2020-04-07T06:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。