論文の概要: Stylecodes: Encoding Stylistic Information For Image Generation
- arxiv url: http://arxiv.org/abs/2411.12811v1
- Date: Tue, 19 Nov 2024 19:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:24.269924
- Title: Stylecodes: Encoding Stylistic Information For Image Generation
- Title(参考訳): Stylecodes:画像生成のためのスティリスティックな情報をエンコードする
- Authors: Ciara Rowles,
- Abstract要約: StyleCodesはオープンソースでオープンソースの検索スタイルのエンコーダアーキテクチャであり、イメージスタイルを20シンボルのbase64コードとして表現するためのトレーニング手順である。
実験の結果,従来のイメージ・ツー・スタイルの手法と比較して,符号化によって品質が低下する可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Diffusion models excel in image generation, but controlling them remains a challenge. We focus on the problem of style-conditioned image generation. Although example images work, they are cumbersome: srefs (style-reference codes) from MidJourney solve this issue by expressing a specific image style in a short numeric code. These have seen widespread adoption throughout social media due to both their ease of sharing and the fact they allow using an image for style control, without having to post the source images themselves. However, users are not able to generate srefs from their own images, nor is the underlying training procedure public. We propose StyleCodes: an open-source and open-research style encoder architecture and training procedure to express image style as a 20-symbol base64 code. Our experiments show that our encoding results in minimal loss in quality compared to traditional image-to-style techniques.
- Abstract(参考訳): 拡散モデルは画像生成において優れているが、それらを制御することは依然として困難である。
スタイル条件付き画像生成の問題に焦点をあてる。
MidJourneyのsref(スタイル参照コード)は、短い数値コードで特定のイメージスタイルを表現することでこの問題を解決します。
これらは、共有の容易さと、ソースイメージ自体を投稿することなく、イメージをスタイルコントロールに使用できるという事実の両方から、ソーシャルメディア全体で広く採用されている。
しかし、ユーザは自身のイメージからスリーフを生成することができず、基礎となるトレーニング手順も公開されていない。
オープンソースかつオープンな研究スタイルのエンコーダアーキテクチャであるStyleCodesを提案し,20シンボルのbase64コードとしてイメージスタイルを表現する訓練手順を提案する。
実験の結果,従来のイメージ・ツー・スタイルの手法と比較して,符号化によって品質が低下する可能性が示唆された。
関連論文リスト
- Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StyleGAN Encoder-Based Attack for Block Scrambled Face Images [14.505867475659276]
本稿では,スクランブルされた顔画像,特に Encryption-then-Compression (EtC) 適用画像のブロック手法を提案する。
暗号化された画像から同一の画像を復元する代わりに、暗号化された画像から識別可能な情報を明らかにするスタイルの復元に重点を置いている。
現状の攻撃方法はEtC画像から知覚情報を復元することはできないが,本手法では,髪の色,肌の色,眼鏡,性別などの個人識別情報を開示する。
論文 参考訳(メタデータ) (2022-09-16T14:12:39Z) - Generative Artisan: A Semantic-Aware and Controllable CLIPstyler [0.0]
本稿では,事前学習したCLIPテキストイメージ埋め込みモデルを用いて,FCNセマンティックセグメンテーションネットワークを通じて画像スタイルの転送をガイドする新しいフレームワークを提案する。
具体的には、自撮り写真と現実世界の風景の両方のポートレート・オーバー・スティリング問題を、人間の被写体写真で解決する。
論文 参考訳(メタデータ) (2022-07-23T20:26:47Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Translation [10.357474047610172]
本稿では,ユーザが所望の描画スタイルを指定可能なテキスト記述のためのスタイルドローイング生成手法を提案する。
創作過程において、スタイルと内容が分離できないという芸術理論に触発されて、我々はStyleCLIPDrawとして知られる、結合したアプローチを提案する。
人間の評価に基づいて、StyleCLIPDrawによって生成される画像のスタイルは、シーケンシャルアプローチによって強く好まれる。
論文 参考訳(メタデータ) (2022-02-24T21:03:51Z) - SuperStyleNet: Deep Image Synthesis with Superpixel Based Style Encoder [42.797556930348186]
我々はSuperStyleNetという名前のスーパーピクセルベースのエンコーダを用いたディープ画像合成を提案する。
まず,スーパーピクセルをベースとしたオリジナル画像からスタイルコードを直接抽出し,局所オブジェクトを考察する。
第2に、グラフィカル解析に基づいてベクトル化されたスタイルコードにおける空間関係を復元する。
論文 参考訳(メタデータ) (2021-12-17T07:53:01Z) - ISF-GAN: An Implicit Style Function for High-Resolution Image-to-Image
Translation [55.47515538020578]
本研究は,マルチモーダル画像とマルチドメイン画像の直接変換を実現する暗黙的スタイル関数 (ISF) を提案する。
ヒトの顔と動物に対する手術の結果は,ベースラインよりも有意に改善した。
我々のモデルは、事前訓練された無条件GANを用いて、高解像度で費用対効果の高いマルチモーダル・アントラクショナル・イメージ・ツー・イメージ翻訳を可能にする。
論文 参考訳(メタデータ) (2021-09-26T04:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。