論文の概要: Enhancing MMDiT-Based Text-to-Image Models for Similar Subject Generation
- arxiv url: http://arxiv.org/abs/2411.18301v1
- Date: Wed, 27 Nov 2024 12:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:31.707733
- Title: Enhancing MMDiT-Based Text-to-Image Models for Similar Subject Generation
- Title(参考訳): 類似主題生成のためのMMDiTに基づくテキスト・ツー・イメージモデルの構築
- Authors: Tianyi Wei, Dongdong Chen, Yifan Zhou, Xingang Pan,
- Abstract要約: 最新のMMDiT(Multimodal Diffusion Transformer)は,入力テキストプロンプトに類似した意味や外観の複数の主題が含まれている場合,対象の曖昧さや混合に悩まされている。
この問題の原因となる3つの曖昧さは、ブロック間曖昧性、テキスト曖昧性、セマンティック曖昧性である。
そこで本研究では,初期段階におけるテスト時間最適化により,不明瞭な潜伏状態の修復を提案する。
- 参考スコア(独自算出の注目度): 30.99444221104659
- License:
- Abstract: Representing the cutting-edge technique of text-to-image models, the latest Multimodal Diffusion Transformer (MMDiT) largely mitigates many generation issues existing in previous models. However, we discover that it still suffers from subject neglect or mixing when the input text prompt contains multiple subjects of similar semantics or appearance. We identify three possible ambiguities within the MMDiT architecture that cause this problem: Inter-block Ambiguity, Text Encoder Ambiguity, and Semantic Ambiguity. To address these issues, we propose to repair the ambiguous latent on-the-fly by test-time optimization at early denoising steps. In detail, we design three loss functions: Block Alignment Loss, Text Encoder Alignment Loss, and Overlap Loss, each tailored to mitigate these ambiguities. Despite significant improvements, we observe that semantic ambiguity persists when generating multiple similar subjects, as the guidance provided by overlap loss is not explicit enough. Therefore, we further propose Overlap Online Detection and Back-to-Start Sampling Strategy to alleviate the problem. Experimental results on a newly constructed challenging dataset of similar subjects validate the effectiveness of our approach, showing superior generation quality and much higher success rates over existing methods. Our code will be available at https://github.com/wtybest/EnMMDiT.
- Abstract(参考訳): 最新のMultimodal Diffusion Transformer (MMDiT)は、テキスト・ツー・イメージモデルの最先端技術を表現するため、以前のモデルに存在する多くの世代問題を軽減している。
しかし、入力テキストプロンプトが類似した意味や外観の複数の主題を含む場合、被験者の無視や混合に苦しむことが判明した。
この問題の原因となるMMDiTアーキテクチャには,ブロック間曖昧性(Inter-block Ambiguity),テキストエンコーダ曖昧性(Text Encoder Ambiguity),セマンティック曖昧性(Semantic Ambiguity)という3つの曖昧性が存在する。
これらの問題に対処するため、我々は初期段階におけるテスト時間最適化により、不明瞭な潜伏をオンザフライで修復することを提案する。
詳細は、ブロックアライメントロス、テキストエンコーダアライメントロス、オーバーラップロスの3つの損失関数を設計します。
重複損失による指示が十分に明確でないため,複数の類似した主題を生成する際に意味的あいまいさが持続することがわかった。
そこで本研究では,Overlap Online DetectionとBack-to-Start Smpling Strategyを提案する。
提案手法の有効性を検証し,既存手法よりも優れた生成品質と極めて高い成功率を示した。
私たちのコードはhttps://github.com/wtybest/EnMMDiT.comで公開されます。
関連論文リスト
- GenesisTex2: Stable, Consistent and High-Quality Text-to-Texture Generation [35.04723374116026]
大規模テキスト・トゥ・イメージ(T2I)モデルは、テキスト・トゥ・イメージ(T2I)生成において驚くべき結果を示している。
これらのモデルを用いて3次元ジオメトリーのテクスチャを合成することは、2次元画像と3次元表面のテクスチャとの領域ギャップのために依然として困難である。
本稿では,事前学習した拡散モデルを活用する新しいテキスト・テクスチャ合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-27T02:32:42Z) - Unsupervised Text Style Transfer via LLMs and Attention Masking with
Multi-way Interactions [18.64326057581588]
非教師付きテキストスタイル転送(UTST)が自然言語処理(NLP)分野における重要な課題として浮上している。
本稿では,命令を調整したパイプライン・フレームワークであるLarge Language Models (LLMs) から注目マスキング・モデルへの知識蒸留,構築された並列例を用いたコンテキスト内学習の4つの方法を提案する。
これらのマルチウェイインタラクションは、スタイルの強さ、コンテンツ保存、テキストの流布といった観点から、ベースラインを改善することを実証的に示しています。
論文 参考訳(メタデータ) (2024-02-21T09:28:02Z) - The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - $\textit{latent}$-GLAT: Glancing at Latent Variables for Parallel Text
Generation [65.29170569821093]
並列テキスト生成は、ジェネレーション効率の成功により、広く注目を集めています。
本稿では,単語分類情報を取得するために,離散潜在変数を用いた$textitlatent$-GLATを提案する。
実験結果から,本手法は自己回帰モデルを用いることなく,強いベースラインを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-04-05T07:34:12Z) - Exposing Semantic Segmentation Failures via Maximum Discrepancy
Competition [102.75463782627791]
オープンビジュアルの世界において,既存の意味セグメンテーション手法の失敗を露呈することで,質問に答える。
モデル改ざんに関するこれまでの研究に触発され、任意に大きい画像セットから始まり、2つのセグメンテーション方法間の差分法(MAD)をMAximizingすることによって、小さな画像セットを自動的にサンプリングします。
選択された画像は、2つの方法のいずれか(または両方)を偽造する最大の可能性を持っている。
また,MADコンペティションにおいて,障害の露呈が困難であるセグメンテーション法について検討した。
論文 参考訳(メタデータ) (2021-02-27T16:06:25Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。