論文の概要: Multiresolution Textual Inversion
- arxiv url: http://arxiv.org/abs/2211.17115v1
- Date: Wed, 30 Nov 2022 15:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 15:27:16.924008
- Title: Multiresolution Textual Inversion
- Title(参考訳): 多分解能テキストインバージョン
- Authors: Giannis Daras and Alexandros G. Dimakis
- Abstract要約: テキスト・インバージョンを拡張して、異なる解像度で概念を表す擬似単語を学習する。
「$S*(0)$の写真」は正確なオブジェクトを生成し、プロンプト「$S*(0.8)$の写真」は粗い輪郭と色しか一致しない。
- 参考スコア(独自算出の注目度): 96.19666636109729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend Textual Inversion to learn pseudo-words that represent a concept at
different resolutions. This allows us to generate images that use the concept
with different levels of detail and also to manipulate different resolutions
using language. Once learned, the user can generate images at different levels
of agreement to the original concept; "A photo of $S^*(0)$" produces the exact
object while the prompt "A photo of $S^*(0.8)$" only matches the rough outlines
and colors. Our framework allows us to generate images that use different
resolutions of an image (e.g. details, textures, styles) as separate
pseudo-words that can be composed in various ways. We open-soure our code in
the following URL: https://github.com/giannisdaras/multires_textual_inversion
- Abstract(参考訳): テキスト変換を拡張して、異なる解像度で概念を表す擬似単語を学習する。
これにより、異なるレベルの詳細でこの概念を使用するイメージを生成することができ、また言語を使用して異なる解像度を操作することができる。
s^*(0)$" の写真は正確なオブジェクトを生成し、"$s^*(0.8)$ の写真" は粗い輪郭と色にしか一致しない。
我々のフレームワークは、画像の解像度が異なる画像(詳細、テクスチャ、スタイルなど)を、様々な方法で構成できる独立した擬似単語として生成することができる。
https://github.com/giannisdaras/multires_textual_inversion
関連論文リスト
- VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Efficient Scale-Invariant Generator with Column-Row Entangled Pixel
Synthesis [3.222802562733787]
本研究では,空間的畳み込みや粗大な設計を使わずに,効率的かつスケール平等な新しい生成モデルを提案する。
FFHQ、LSUN-Church、MetFaces、Flickr-Sceneryなど、さまざまなデータセットの実験では、CREPSのスケール一貫性とエイリアスのない画像を合成する能力が確認されている。
論文 参考訳(メタデータ) (2023-03-24T17:12:38Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - An Image is Worth One Word: Personalizing Text-to-Image Generation using
Textual Inversion [60.05823240540769]
テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。
ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。
一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-02T17:50:36Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Unsupervised Image Transformation Learning via Generative Adversarial
Networks [40.84518581293321]
GAN(Generative Adversarial Networks)を用いた画像集合から基底変換を学習して画像変換問題を研究する。
本稿では,生成元と識別器が共有する変換空間に画像を投影する,教師なし学習フレームワークTrGANを提案する。
論文 参考訳(メタデータ) (2021-03-13T17:08:19Z) - Anysize GAN: A solution to the image-warping problem [5.866114531330298]
本稿では,Deep Learningにおける共通問題を解決するために,GAN(General Adversarial Network)の新たなタイプを提案する。
我々は,既存の潜在ベクトルベースGAN構造に適用可能な新しいアーキテクチャを開発し,任意のサイズのオンザフライ画像を生成する。
提案手法は,特徴的関係を維持しつつ,空間的関係の保存と理解を行なわずに,異なる大きさの現実的な画像を生成することを実証する。
論文 参考訳(メタデータ) (2020-03-06T14:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。