Fugu-MT 論文翻訳(概要): ELODIN: Naming Concepts in Embedding Spaces

論文の概要: ELODIN: Naming Concepts in Embedding Spaces

arxiv url: http://arxiv.org/abs/2303.04001v2
Date: Thu, 9 Mar 2023 17:10:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-10 11:21:30.070436
Title: ELODIN: Naming Concepts in Embedding Spaces
Title（参考訳）: ELODIN: 埋め込みスペースにおけるナーミングの概念
Authors: Rodrigo Mello, Filipe Calegario, Geber Ramalho
Abstract要約: 複数の画像にまたがって再利用可能な特定の概念を生成することによって制御を強化する手法を提案する。本手法はテキストのみのプロンプトよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite recent advancements, the field of text-to-image synthesis still suffers from lack of fine-grained control. Using only text, it remains challenging to deal with issues such as concept coherence and concept contamination. We propose a method to enhance control by generating specific concepts that can be reused throughout multiple images, effectively expanding natural language with new words that can be combined much like a painter's palette. Unlike previous contributions, our method does not copy visuals from input data and can generate concepts through text alone. We perform a set of comparisons that finds our method to be a significant improvement over text-only prompts.
Abstract（参考訳）: 最近の進歩にもかかわらず、テキストから画像への合成の分野は、まだ細かな制御の欠如に苦しんでいる。テキストのみを使用することで、概念コヒーレンスや概念汚染といった問題に対処することは依然として困難である。本稿では,複数の画像にまたがって再利用可能な特定の概念を生成し,画家のパレットによく似た新しい単語で自然言語を効果的に拡張することで,制御性を高める手法を提案する。従来のコントリビューションとは異なり,本手法は入力データから視覚情報をコピーせず,テキストだけで概念を生成できる。我々は,テキストのみのプロンプトよりも大幅に改善されることを示す比較を行う。

関連論文リスト

One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework [127.07102988701092]
我々は、最初のテキストイメージ協調概念消去(Co-Erasing)フレームワークを紹介する。 Co-Erasingは、テキストプロンプトと、プロンプトによって誘導されるそれに対応する望ましくないイメージによって、この概念を共同で記述する。我々は,テキストガイドによる画像概念の洗練戦略を設計し,特定のテキスト概念に最も関係のある視覚的特徴に焦点を当てるようモデルに指示する。
論文参考訳（メタデータ） (2025-05-16T11:25:50Z)
Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文参考訳（メタデータ） (2025-04-03T17:59:58Z)
IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文参考訳（メタデータ） (2025-02-19T18:49:31Z)
Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか? ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文参考訳（メタデータ） (2024-10-31T17:09:55Z)
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization [14.01847471143144]
コンテクスト規則化(CoRe)を導入し、コンテクストトークンをプロンプトに正規化することで、新しい概念のテキスト埋め込みの学習を強化する。 CoReは、対応する画像の生成を必要とせずに任意のプロンプトに適用することができる。包括的実験により,本手法は識別保存法とテキストアライメント法の両方において,いくつかの基本的手法より優れていることが示された。
論文参考訳（メタデータ） (2024-08-28T16:27:58Z)
Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文参考訳（メタデータ） (2024-05-11T05:01:53Z)
An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning [8.985668637331335]
テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」を埋め込む特異テキストを学習する。我々は,複数の未知の単語を1つの文と画像のペアから同時に学習する,MCPL(Multi-Concept Prompt Learning)を導入する。当社のアプローチでは,テキスト埋め込みのみから学習することを重視しており,ストレージスペースの10%未満を他と比較して使用しています。
論文参考訳（メタデータ） (2023-10-18T19:18:19Z)
Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文参考訳（メタデータ） (2023-10-11T12:05:44Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
General Image-to-Image Translation with One-Shot Image Guidance [5.89808526053682]
ビジュアルコンセプトトランスレータ(VCT)という新しいフレームワークを提案する。ソースイメージ内のコンテンツを保存し、単一の参照イメージでガイドされた視覚概念を翻訳する機能を持つ。 1つの参照画像のみを前提として、提案したVCTは、優れた結果を得ることなく、幅広い画像から画像への変換タスクを完了することができる。
論文参考訳（メタデータ） (2023-07-20T16:37:49Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文参考訳（メタデータ） (2023-02-27T14:49:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。