Fugu-MT 論文翻訳(概要): Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models

論文の概要: Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models

arxiv url: http://arxiv.org/abs/2312.06712v2
Date: Wed, 31 Jan 2024 18:44:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 17:32:26.902419
Title: Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models
Title（参考訳）: 分離エンハンス:Text2画像拡散モデルのための合成ファインタニング
Authors: Zhipeng Bao and Yijun Li and Krishna Kumar Singh and Yu-Xiong Wang and Martial Hebert
Abstract要約: この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
参考スコア（独自算出の注目度）: 58.46926334842161
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent significant strides achieved by diffusion-based Text-to-Image (T2I) models, current systems are still less capable of ensuring decent compositional generation aligned with text prompts, particularly for the multi-object generation. This work illuminates the fundamental reasons for such misalignment, pinpointing issues related to low attention activation scores and mask overlaps. While previous research efforts have individually tackled these issues, we assert that a holistic approach is paramount. Thus, we propose two novel objectives, the Separate loss and the Enhance loss, that reduce object mask overlaps and maximize attention scores, respectively. Our method diverges from conventional test-time-adaptation techniques, focusing on finetuning critical parameters, which enhances scalability and generalizability. Comprehensive evaluations demonstrate the superior performance of our model in terms of image realism, text-image alignment, and adaptability, notably outperforming prominent baselines. Ultimately, this research paves the way for T2I diffusion models with enhanced compositional capacities and broader applicability.
Abstract（参考訳）: 拡散ベースのテキスト・ツー・イメージ(T2I)モデルによって達成された最近の顕著な進歩にもかかわらず、現在のシステムはテキストプロンプト、特にマルチオブジェクト・ジェネレーションの適切な構成生成を保証する能力は依然として低い。この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。これまでの研究はこれらの問題に個別に取り組んできたが、総合的なアプローチが最重要であると断言する。そこで本稿では,物体マスクの重なりを減らし,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。本手法は,従来のテスト時間適応手法と異なり,限界パラメータの微調整に焦点を合わせ,スケーラビリティと一般化性を高める。総合的な評価は,画像リアリズム,テキスト・画像アライメント,適応性,特に著明なベースラインよりも優れた性能を示す。本研究は,T2I拡散モデルにおいて,合成能力の向上と適用性の向上を図っている。

関連論文リスト

Text-to-Image Diffusion Models Cannot Count, and Prompt Refinement Cannot Help [18.70937620674227]
T2ICountBenchは、最先端のテキスト・画像拡散モデルのカウント能力を厳格に評価するために設計された新しいベンチマークである。評価の結果, 物体数の増加に伴い精度が著しく低下し, 全ての拡散モデルが正しい物体数を生成することができないことがわかった。
論文参考訳（メタデータ） (2025-03-10T03:28:18Z)
Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文参考訳（メタデータ） (2024-11-25T10:57:48Z)
DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。提案手法は,新しい最先端の知覚品質レベルを実現する。
論文参考訳（メタデータ） (2024-06-24T09:30:36Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。本研究では,既存のデータ拡張技術の欠点について検討する。 Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文参考訳（メタデータ） (2024-03-28T17:23:45Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文参考訳（メタデータ） (2023-09-03T08:07:26Z)
Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文参考訳（メタデータ） (2022-12-09T18:30:24Z)
Robust Single Image Dehazing Based on Consistent and Contrast-Assisted Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。我々の手法は最先端のアプローチを大きく上回っている。
論文参考訳（メタデータ） (2022-03-29T08:11:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。