Fugu-MT 論文翻訳(概要): Self-Creative Text-to-Object Generation using Semantic-Aware Spatial Weighting

論文の概要: Self-Creative Text-to-Object Generation using Semantic-Aware Spatial Weighting

arxiv url: http://arxiv.org/abs/2605.19554v1
Date: Tue, 19 May 2026 08:52:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.216589
Title: Self-Creative Text-to-Object Generation using Semantic-Aware Spatial Weighting
Title（参考訳）: 意味的空間重み付けを用いた自己修正型テキスト・オブジェクト生成
Authors: Yue Yu, Haibo Chen, Shuo Chen, Jian Yang, Jun Li,
Abstract要約: 現在のテキスト・ツー・イメージ(T2I)モデルは、リテラル・テキスト・イメージアライメントとデータ分散に大きく最適化されている。 2つのコアモジュールを特徴とする有意義なT2I生成のための自己相関拡散(SCDiff)モデルを提案する。私たちのモデルはクリエイティビティ、セマンティックアライメント、ビジュアルコヒーレンスを大幅に改善し、創造的なオブジェクトを生成するためのシンプルで強力なフレームワークを提供します。
参考スコア（独自算出の注目度）: 24.62226758388138
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instilling creativity in text-to-image (T2I) generation presents a significant challenge, as it requires synthesized images to exhibit not only visual novelty and surprise, but also artistic value. Current T2I models, however, are largely optimized for literal text-image alignment with their data distribution, and their noise prediction networks constrain the generation to high-probability regions, consequently generating outputs that lack authentic creativity. To address this, we propose a Self-Creative Diffusion (SCDiff) model for meaningful T2I generations featuring two core modules: a learnable spatial weighting (LSW) module and a visual-semantic mixing loss (VSML). The LSW module designs a parametric Kaiser-Bessel window to reinforce central image features, fostering novel and surprising generation. The VSML module introduces a dual loss function: a similarity loss constrains that the new images align with its textual description, while a diversity loss maximizes its distinction from the original image, enhancing both semantic value and visual novelty. Extensive experiments demonstrate that our model substantially improves creativity, semantic alignment, and visual coherence, offering a simple yet powerful framework for generating creative objects.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成にクリエイティビティを注入することは、視覚的ノベルティとサプライズだけでなく芸術的価値を示すために合成画像を必要とするため、大きな課題となる。しかし、現在のT2Iモデルは、そのデータ分布とリテラルなテキストイメージアライメントに大きく最適化されており、ノイズ予測ネットワークは、生成を高確率領域に制限し、真の創造性を欠いた出力を生成する。そこで本稿では,学習可能な空間重み付け (LSW) モジュールと視覚的意味混合損失 (VSML) の2つのコアモジュールを特徴とする,有意義なT2I世代に対する自己回帰拡散 (SCDiff) モデルを提案する。 LSWモジュールはパラメトリックのカイザー・ベッセル窓を設計し、中心画像の特徴を強化し、新規で驚くべき世代を育成した。 VSMLモジュールは、二重損失関数を導入した: 類似性損失は、新しいイメージがテキスト記述と一致することを制約し、多様性損失は、元のイメージとの区別を最大化し、セマンティック値とビジュアルノベルティの両方を向上する。大規模な実験により、私たちのモデルは創造性、セマンティックアライメント、視覚的コヒーレンスを大幅に改善し、創造的なオブジェクトを生成するためのシンプルで強力なフレームワークを提供します。

関連論文リスト

Multimodal Large Language Models for Multi-Subject In-Context Image Generation [56.20395856287325]
音楽は、textbfMUlti-textbfSubject textbfIn-textbfContextイメージ生成用に特別に設計された最初のMLLMである。我々は,視覚連鎖機構による多目的意味関係の理解を深める。訓練中に複雑な被写体画像を取り込むことで,連鎖推論におけるモデルの能力を向上させる。
論文参考訳（メタデータ） (2026-04-08T15:37:42Z)
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。 Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。 Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-09-23T17:05:46Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-03T08:36:16Z)
Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-14T13:52:43Z)
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
概念内の個々のコンポーネントをカスタマイズし、再構成する新しいタスクである、コンポーネント制御可能なパーソナライゼーションを導入する。この課題は、望ましくない要素が対象概念を阻害する意味汚染と、対象概念と構成要素を不均等に学習する意味不均衡という2つの課題に直面する。動的マスケド・デグラデーション(Dynamic Masked Degradation, 動的マスケド・デグラデーション, 動的マスケド・デグラデーション)を用いて、望まない視覚的セマンティクスを適応的に摂動し、望まれる視覚的セマンティクスをよりバランスよく学習するために、デュアルストリーム・バランシング(Dual-Stream Balancing)を設計する。
論文参考訳（メタデータ） (2024-10-17T09:22:53Z)
DreamCreature: Crafting Photorealistic Virtual Creatures from Imagination [140.1641573781066]
ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
論文参考訳（メタデータ） (2023-11-27T01:24:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。