論文の概要: AdaptaGen: Domain-Specific Image Generation through Hierarchical Semantic Optimization Framework
- arxiv url: http://arxiv.org/abs/2507.05621v1
- Date: Tue, 08 Jul 2025 03:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.538503
- Title: AdaptaGen: Domain-Specific Image Generation through Hierarchical Semantic Optimization Framework
- Title(参考訳): AdaptaGen:階層的セマンティック最適化フレームワークによるドメイン特化画像生成
- Authors: Suoxiang Zhang, Xiaxi Li, Hongrui Chang, Zhuoyan Hou, Guoxin Wu, Ronghua Ji,
- Abstract要約: ドメイン固有の画像生成は、専門分野のための高品質なビジュアルコンテンツを作成することを目的としている。
現在のアプローチでは、専門領域における意味的理解と視覚的表現の固有の依存性を見落としている。
本稿では,行列ベースのプロンプト最適化とマルチパースペクティブ理解を統合した階層型セマンティック最適化フレームワークAdaptaGenを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain-specific image generation aims to produce high-quality visual content for specialized fields while ensuring semantic accuracy and detail fidelity. However, existing methods exhibit two critical limitations: First, current approaches address prompt engineering and model adaptation separately, overlooking the inherent dependence between semantic understanding and visual representation in specialized domains. Second, these techniques inadequately incorporate domain-specific semantic constraints during content synthesis, resulting in generation outcomes that exhibit hallucinations and semantic deviations. To tackle these issues, we propose AdaptaGen, a hierarchical semantic optimization framework that integrates matrix-based prompt optimization with multi-perspective understanding, capturing comprehensive semantic relationships from both global and local perspectives. To mitigate hallucinations in specialized domains, we design a cross-modal adaptation mechanism, which, when combined with intelligent content synthesis, enables preserving core thematic elements while incorporating diverse details across images. Additionally, we introduce a two-phase caption semantic transformation during the generation phase. This approach maintains semantic coherence while enhancing visual diversity, ensuring the generated images adhere to domain-specific constraints. Experimental results confirm our approach's effectiveness, with our framework achieving superior performance across 40 categories from diverse datasets using only 16 images per category, demonstrating significant improvements in image quality, diversity, and semantic consistency.
- Abstract(参考訳): ドメイン固有の画像生成は、セマンティックな精度と詳細な忠実さを確保しつつ、専門分野のための高品質なビジュアルコンテンツを作成することを目的としている。
しかし、既存の手法には2つの重要な制限がある: 第一に、現在のアプローチはプロンプトエンジニアリングとモデル適応を別々に扱い、セマンティック理解と特殊領域における視覚的表現の固有の依存性を見越す。
第2に、これらの手法は、コンテンツ合成中にドメイン固有の意味制約を不適切に含み、幻覚や意味の偏りを示す生成結果をもたらす。
これらの課題に対処するために,マルチパースペクティブな理解と行列ベースのプロンプト最適化を統合した階層型セマンティック最適化フレームワークAdaptaGenを提案する。
特殊領域における幻覚を軽減するため,知的コンテンツ合成と組み合わせることで,画像間の多様な詳細を組み込んだコアテーマ要素の保存が可能となるクロスモーダル適応機構を設計する。
さらに、生成フェーズ中に2段階のセマンティックトランスフォーメーションを導入する。
このアプローチは、視覚的多様性を高めながらセマンティックコヒーレンスを維持し、生成した画像がドメイン固有の制約に準拠していることを保証する。
実験の結果,各カテゴリ毎に16の画像のみを使用して,40のカテゴリで優れた性能を達成し,画像品質,多様性,セマンティック一貫性の大幅な向上を実証した。
関連論文リスト
- Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Controllable Multi-domain Semantic Artwork Synthesis [17.536225601718687]
4つのドメインから4万のアートワークの画像と対応するセマンティックラベルマップを含むデータセットを提案する。
まずランドスケープ写真からセマンティックマップを抽出してデータセットを生成する。
そこで我々は,高品質なアートワークを生成するための条件付きジェネレーティブ・アドリアル・ネットワーク(GAN)アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-19T21:16:28Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Phase Consistent Ecological Domain Adaptation [76.75730500201536]
意味的セグメンテーション(意味的セグメンテーション)の課題に焦点をあてる。そこでは、注釈付き合成データが多用されるが、実際のデータへのアノテートは困難である。
視覚心理学に触発された最初の基準は、2つの画像領域間の地図が位相保存であることである。
第2の基準は、照明剤や撮像センサーの特性に関わらず、その画像に現れる環境統計、またはシーン内の規則を活用することを目的としている。
論文 参考訳(メタデータ) (2020-04-10T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。