論文の概要: ELODIN: Naming Concepts in Embedding Spaces
- arxiv url: http://arxiv.org/abs/2303.04001v2
- Date: Thu, 9 Mar 2023 17:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 11:21:30.070436
- Title: ELODIN: Naming Concepts in Embedding Spaces
- Title(参考訳): ELODIN: 埋め込みスペースにおけるナーミングの概念
- Authors: Rodrigo Mello, Filipe Calegario, Geber Ramalho
- Abstract要約: 複数の画像にまたがって再利用可能な特定の概念を生成することによって制御を強化する手法を提案する。
本手法はテキストのみのプロンプトよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements, the field of text-to-image synthesis still
suffers from lack of fine-grained control. Using only text, it remains
challenging to deal with issues such as concept coherence and concept
contamination. We propose a method to enhance control by generating specific
concepts that can be reused throughout multiple images, effectively expanding
natural language with new words that can be combined much like a painter's
palette. Unlike previous contributions, our method does not copy visuals from
input data and can generate concepts through text alone. We perform a set of
comparisons that finds our method to be a significant improvement over
text-only prompts.
- Abstract(参考訳): 最近の進歩にもかかわらず、テキストから画像への合成の分野は、まだ細かな制御の欠如に苦しんでいる。
テキストのみを使用することで、概念コヒーレンスや概念汚染といった問題に対処することは依然として困難である。
本稿では,複数の画像にまたがって再利用可能な特定の概念を生成し,画家のパレットによく似た新しい単語で自然言語を効果的に拡張することで,制御性を高める手法を提案する。
従来のコントリビューションとは異なり,本手法は入力データから視覚情報をコピーせず,テキストだけで概念を生成できる。
我々は,テキストのみのプロンプトよりも大幅に改善されることを示す比較を行う。
関連論文リスト
- Enhancing Conceptual Understanding in Multimodal Contrastive Learning
through Hard Negative Samples [3.2635082758250693]
本稿では,合成ハードネガティブテキストを取り入れた新しい事前学習手法を提案する。
硬い負の項は視覚的概念に対応し、よりきめ細かい視覚的概念とテキスト的概念のアライメントをもたらす。
InpaintCOCOは、視覚言語モデルにおける色、オブジェクト、サイズをきめ細かいアライメントを評価するための新しいデータセットである。
論文 参考訳(メタデータ) (2024-03-05T11:38:48Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - An Image is Worth Multiple Words: Learning Object Level Concepts using
Multi-Concept Prompt Learning [9.640238242565621]
テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」のための特異な埋め込みを学ぶ。
本稿では,複数の単語を1つの文と画像のペアから同時に学習するMCPL(Multi-Concept Prompt Learning)フレームワークを提案する。
画像生成,編集,多彩な画像による注意の可視化による評価を行った。
論文 参考訳(メタデータ) (2023-10-18T19:18:19Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - General Image-to-Image Translation with One-Shot Image Guidance [5.89808526053682]
ビジュアルコンセプトトランスレータ(VCT)という新しいフレームワークを提案する。
ソースイメージ内のコンテンツを保存し、単一の参照イメージでガイドされた視覚概念を翻訳する機能を持つ。
1つの参照画像のみを前提として、提案したVCTは、優れた結果を得ることなく、幅広い画像から画像への変換タスクを完了することができる。
論文 参考訳(メタデータ) (2023-07-20T16:37:49Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。