論文の概要: Learning Profitable NFT Image Diffusions via Multiple Visual-Policy
Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.11731v2
- Date: Thu, 17 Aug 2023 17:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:14:20.465372
- Title: Learning Profitable NFT Image Diffusions via Multiple Visual-Policy
Guided Reinforcement Learning
- Title(参考訳): 複数の視覚ポリティクス指導型強化学習によるNFT画像拡散の学習
- Authors: Huiguo He, Tianfu Wang, Huan Yang, Jianlong Fu, Nicholas Jing Yuan,
Jian Yin, Hongyang Chao, Qi Zhang
- Abstract要約: NFT画像に対する報酬として,複数ビジュアルポリシーを用いた拡散型生成フレームワークを提案する。
提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。
我々のフレームワークは、SOTAのアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができる。
- 参考スコア(独自算出の注目度): 69.60868581184366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of generating profitable Non-Fungible Token (NFT) images
from user-input texts. Recent advances in diffusion models have shown great
potential for image generation. However, existing works can fall short in
generating visually-pleasing and highly-profitable NFT images, mainly due to
the lack of 1) plentiful and fine-grained visual attribute prompts for an NFT
image, and 2) effective optimization metrics for generating high-quality NFT
images. To solve these challenges, we propose a Diffusion-based generation
framework with Multiple Visual-Policies as rewards (i.e., Diffusion-MVP) for
NFT images. The proposed framework consists of a large language model (LLM), a
diffusion-based image generator, and a series of visual rewards by design.
First, the LLM enhances a basic human input (such as "panda") by generating
more comprehensive NFT-style prompts that include specific visual attributes,
such as "panda with Ninja style and green background." Second, the
diffusion-based image generator is fine-tuned using a large-scale NFT dataset
to capture fine-grained image styles and accessory compositions of popular NFT
elements. Third, we further propose to utilize multiple visual-policies as
optimization goals, including visual rarity levels, visual aesthetic scores,
and CLIP-based text-image relevances. This design ensures that our proposed
Diffusion-MVP is capable of minting NFT images with high visual quality and
market value. To facilitate this research, we have collected the largest
publicly available NFT image dataset to date, consisting of 1.5 million
high-quality images with corresponding texts and market values. Extensive
experiments including objective evaluations and user studies demonstrate that
our framework can generate NFT images showing more visually engaging elements
and higher market value, compared with SOTA approaches.
- Abstract(参考訳): ユーザ入力テキストからNFT(Non-Fungible Token)画像を生成するタスクについて検討する。
近年の拡散モデルの発展は画像生成に大きな可能性を示している。
しかし、既存の作品は、主に不足のため、視覚的に供給され、高収益のNFT画像を生成するのに不足する可能性がある。
1)NFT画像のための多彩できめ細かな視覚特性プロンプト、及び
2)高品質なNFT画像を生成するための効果的な最適化指標。
これらの課題を解決するために,NFT画像に対する報酬(Diffusion-MVP)として,複数ビジュアルポリシーを用いた拡散生成フレームワークを提案する。
提案するフレームワークは,大規模言語モデル (LLM) と拡散型画像生成装置,および設計による視覚的報酬からなる。
まず、LLMは「忍者スタイルと緑の背景を持つパンダ」のような特定の視覚特性を含むより包括的なNTTスタイルのプロンプトを生成することで、基本的な人間の入力(パンダなど)を強化する。
第2に、拡散に基づく画像生成装置は、大規模なNFTデータセットを用いて微調整され、一般的なNFT要素の微細な画像スタイルとアクセサリー構成をキャプチャする。
第3に,視覚的照度レベル,視覚的美的スコア,CLIPに基づくテキスト画像関連性など,複数の視覚政治を最適化目標として活用することを提案する。
この設計により、提案したDiffusion-MVPは、高い視覚的品質と市場価値でNFT画像をマイニングできる。
この研究を容易にするために、我々は150万の高品質画像と対応するテキストと市場価値からなる、これまでで最大のnftイメージデータセットを収集した。
客観的評価やユーザスタディを含む大規模な実験により、我々のフレームワークは、SOTAアプローチと比較して、より視覚的に魅力的な要素と高い市場価値を示すNFT画像を生成することができることを示した。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion [28.067489567200393]
本稿では,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。
我々は、ウェーブレット変換に基づいて、周波数領域におけるマルチスケール視覚言語を用いたガイドネットワークを設計し、効果的な画像強調を実現する。
提案手法は,既存の最先端手法より優れ,通常の画像とよく似た画像の再現性が向上する。
論文 参考訳(メタデータ) (2024-01-08T10:08:48Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - TF-ICON: Diffusion-Based Training-Free Cross-Domain Image Composition [13.087647740473205]
TF-ICONは、クロスドメイン画像誘導合成のためのテキスト駆動拡散モデルのパワーを利用するフレームワークである。
TF-ICONはオフザシェルフ拡散モデルを利用して、追加のトレーニング、微調整、最適化を必要とせずに、クロスドメイン画像誘導合成を実行することができる。
実験により, 安定拡散と例外的なプロンプトとを併用することで, 各種データセット上での最先端の逆解析法より優れた性能が得られた。
論文 参考訳(メタデータ) (2023-07-24T02:50:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Deep Attentive Generative Adversarial Network for Photo-Realistic Image
De-Quantization [25.805568996596783]
減量子化は、高ビット深度画面に表示するための低ビット深度画像の視覚的品質を改善することができる。
本稿では,画像強度分解能の超解像を実現するためのDAGANアルゴリズムを提案する。
DenseResAttモジュールは、自己保持機構を備えた密集した残留ブロックで構成されている。
論文 参考訳(メタデータ) (2020-04-07T06:45:01Z) - Real-MFF: A Large Realistic Multi-focus Image Dataset with Ground Truth [58.226535803985804]
我々はReal-MFFと呼ばれる大規模で現実的なマルチフォーカスデータセットを導入する。
データセットは、710対のソースイメージと対応する接地真理画像を含む。
このデータセット上で10の典型的なマルチフォーカスアルゴリズムを図示のために評価する。
論文 参考訳(メタデータ) (2020-03-28T12:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。