Fugu-MT 論文翻訳(概要): How Control Information Influences Multilingual Text Image Generation and Editing?

論文の概要: How Control Information Influences Multilingual Text Image Generation and Editing?

arxiv url: http://arxiv.org/abs/2407.11502v1
Date: Tue, 16 Jul 2024 08:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 15:52:20.943174
Title: How Control Information Influences Multilingual Text Image Generation and Editing?
Title（参考訳）: 制御情報は多言語テキスト生成と編集にどのように影響するか?
Authors: Boqiang Zhang, Zuan Gao, Yadong Qu, Hongtao Xie,
Abstract要約: TextGenは、制御情報を最適化することによって生成品質を向上させるように設計された新しいフレームワークである。制御情報の異なる役割を異なる段階で整合させるために、2段階生成フレームワークを用いる。本手法は、中国語と英語の両方のテキスト生成における最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 28.999640376365335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual text generation has significantly advanced through diffusion models aimed at producing images with readable and realistic text. Recent works primarily use a ControlNet-based framework, employing standard font text images to control diffusion models. Recognizing the critical role of control information in generating high-quality text, we investigate its influence from three perspectives: input encoding, role at different stages, and output features. Our findings reveal that: 1) Input control information has unique characteristics compared to conventional inputs like Canny edges and depth maps. 2) Control information plays distinct roles at different stages of the denoising process. 3) Output control features significantly differ from the base and skip features of the U-Net decoder in the frequency domain. Based on these insights, we propose TextGen, a novel framework designed to enhance generation quality by optimizing control information. We improve input and output features using Fourier analysis to emphasize relevant information and reduce noise. Additionally, we employ a two-stage generation framework to align the different roles of control information at different stages. Furthermore, we introduce an effective and lightweight dataset for training. Our method achieves state-of-the-art performance in both Chinese and English text generation. The code and dataset will be made available.
Abstract（参考訳）: 可読かつリアルなテキストで画像を生成することを目的とした拡散モデルにより、視覚テキスト生成は大幅に進歩した。最近の研究は主に、拡散モデルを制御するために標準フォントのテキストイメージを使用するコントロールネットベースのフレームワークを使用している。高品質テキスト生成における制御情報の重要性を認識し,入力符号化,異なる段階における役割,出力特性の3点からその影響を考察する。私たちの発見は、こう示しています。 1)入力制御情報は,カニーエッジや深度マップのような従来の入力と比較して特徴がある。 2)制御情報は認知過程の異なる段階で異なる役割を担っている。 3)出力制御機能は周波数領域におけるU-Netデコーダのベースとスキップ機能とは大きく異なる。これらの知見に基づいて,制御情報の最適化による生成品質向上を目的とした新しいフレームワークであるTextGenを提案する。本研究では、Fourier解析を用いて入力・出力特性を改善し、関連する情報を強調し、ノイズを低減する。さらに、制御情報の異なる役割を異なる段階で整合させるために、2段階生成フレームワークを用いる。さらに、トレーニングのための効果的で軽量なデータセットも導入する。本手法は、中国語と英語の両方のテキスト生成における最先端のパフォーマンスを実現する。コードとデータセットが利用可能になる。

関連論文リスト

DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
DynamiCtrlはMM-DiTで異なるポーズ誘導構造を探索する新しいフレームワークである。適応層正規化を利用してスパースポーズ特徴を符号化するPose-Adaptive Layer Norm (PadaLN)を提案する。テキストを活用することで、生成したコンテンツのきめ細かい制御を可能にするだけでなく、初めて背景と動きの同時制御を実現する。
論文参考訳（メタデータ） (2025-03-27T08:07:45Z)
The Narrow Gate: Localized Image-Text Communication in Vision-Language Models [36.33608889682152]
本研究では,視覚言語モデルが画像理解タスクをどのように扱うかを検討する。マルチモーダルな出力を持つモデルでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。対照的に、画像生成とテキスト生成のために訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のトークンに依存する傾向がある。
論文参考訳（メタデータ） (2024-12-09T16:39:40Z)
FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文参考訳（メタデータ） (2024-08-02T04:13:38Z)
Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文参考訳（メタデータ） (2024-02-21T03:01:17Z)
Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文参考訳（メタデータ） (2023-12-08T07:47:46Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)
Controlled Text Generation with Hidden Representation Transformations [12.576140288264835]
CHRTは、特定の属性(毒性など)に関連するテキストを生成するために、大きな言語モデルを操縦するコントラスト学習フレームワークを使ってこれらの変換を学習し、それを組み合わせてマルチ属性制御を実現します。 CHRTは、解毒、ポジティブな感情のステアリング、テキストの単純化といったタスクにおいて、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-30T17:21:17Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
FAST: Improving Controllability for Text Generation with Feedback Aware Self-Training [25.75982440355576]
制御可能なテキスト生成システムは、しばしば制御コードを利用して、スタイルや長さといった出力の様々な特性を指示する。 NLPの因果推論に関する最近の研究に触発された本論文は、これらの制御符号に基づく条件付きテキスト生成アルゴリズムにおいて、これまで見過ごされていた欠陥を明らかにする。トレーニングセットにおけるこれらの相関を減少させるための2つの簡単な手法を提案する。
論文参考訳（メタデータ） (2022-10-06T19:00:51Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文参考訳（メタデータ） (2021-10-21T00:16:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。