論文の概要: A Method for Training-free Person Image Picture Generation
- arxiv url: http://arxiv.org/abs/2305.09817v1
- Date: Tue, 16 May 2023 21:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:20:56.239312
- Title: A Method for Training-free Person Image Picture Generation
- Title(参考訳): 訓練不要な人物画像生成の一手法
- Authors: Tianyu Chen
- Abstract要約: 本稿では,キャラクタ画像の特徴モデルを提案する。
これにより、ユーザーは文字の画像を簡単に提供して、生成された画像中の文字の画像と期待値とを一致させることで、プロセスを利用することができる。
提案モデルは, モデルを変更したり, 継手モデルとして使用したりすることなく, 安定拡散生成プロセスに簡便に組み込むことができる。
- 参考スコア(独自算出の注目度): 4.043367784553845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current state-of-the-art Diffusion model has demonstrated excellent
results in generating images. However, the images are monotonous and are mostly
the result of the distribution of images of people in the training set, making
it challenging to generate multiple images for a fixed number of individuals.
This problem can often only be solved by fine-tuning the training of the model.
This means that each individual/animated character image must be trained if it
is to be drawn, and the hardware and cost of this training is often beyond the
reach of the average user, who accounts for the largest number of people. To
solve this problem, the Character Image Feature Encoder model proposed in this
paper enables the user to use the process by simply providing a picture of the
character to make the image of the character in the generated image match the
expectation. In addition, various details can be adjusted during the process
using prompts. Unlike traditional Image-to-Image models, the Character Image
Feature Encoder extracts only the relevant image features, rather than
information about the model's composition or movements. In addition, the
Character Image Feature Encoder can be adapted to different models after
training. The proposed model can be conveniently incorporated into the Stable
Diffusion generation process without modifying the model's ontology or used in
combination with Stable Diffusion as a joint model.
- Abstract(参考訳): 現状の拡散モデルでは画像生成に優れた結果が得られた。
しかし、画像は単調であり、主にトレーニングセット内の人物像の分布の結果であり、一定数の個人に対して複数の画像を生成することは困難である。
この問題は、モデルのトレーニングを微調整することでのみ解決できる。
これはつまり、個々の/アニメーション文字イメージを描画する場合は、トレーニングしなければならないことを意味しており、このトレーニングのハードウェアとコストは、最も人数の多い平均ユーザのリーチを超えていることが多い。
この問題を解決するために,本稿で提案するキャラクタ画像特徴エンコーダモデルでは,キャラクタの画像を単純に提供して,生成画像中のキャラクタのイメージを期待値に一致させることで,そのプロセスを利用することができる。
また、プロセス中にプロンプトを使って様々な詳細を調整できる。
従来の画像対画像モデルとは異なり、キャラクタ画像特徴エンコーダは、モデルの構成や動きに関する情報ではなく、関連する画像特徴のみを抽出する。
さらに、キャラクタイメージ特徴エンコーダは、トレーニング後に異なるモデルに適応することができる。
提案モデルは, モデルオントロジーを変更したり, 継手モデルとして安定拡散と組み合わせて用いることなく, 安定拡散生成プロセスに簡便に組み込むことができる。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Conditional Diffusion on Web-Scale Image Pairs leads to Diverse Image Variations [32.892042877725125]
現在の画像変化技術では、同じ画像に条件付けされた入力画像の再構成にテキスト・ツー・イメージ・モデルを適用する。
凍結した埋め込み画像から入力画像の再構成を訓練した拡散モデルにより,小さなバリエーションで画像の再構成が可能であることを示す。
本稿では,画像ペアの集合を用いて画像の変動を生成するための事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T17:58:03Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - BlendGAN: Learning and Blending the Internal Distributions of Single
Images by Spatial Image-Identity Conditioning [37.21764919074815]
単一画像生成法は、複数のスケールで単一の自然な画像の内部パッチ分布を学習するために設計されている。
複数の画像の内部分布を同時に学習できる拡張フレームワークを提案する。
私たちのBlendGANは、シングルイメージモデルでサポートされていないアプリケーションへの扉を開きます。
論文 参考訳(メタデータ) (2022-12-03T10:38:27Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。
結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文 参考訳(メタデータ) (2021-11-30T10:23:06Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。