論文の概要: Yuan: Yielding Unblemished Aesthetics Through A Unified Network for Visual Imperfections Removal in Generated Images
- arxiv url: http://arxiv.org/abs/2501.08505v1
- Date: Wed, 15 Jan 2025 00:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:51.394635
- Title: Yuan: Yielding Unblemished Aesthetics Through A Unified Network for Visual Imperfections Removal in Generated Images
- Title(参考訳): Yuan:生成した画像の視覚的欠陥除去のための統一ネットワークを通じて、未完成の美学を得られる
- Authors: Zhenyu Yu, Chee Seng Chan,
- Abstract要約: textitYuanは、テキストと画像の合成において視覚的欠陥を自律的に補正する新しいフレームワークである。
提案手法は, NIQE, BRISQUE, PIなどの測定値において, 常に高いスコアを達成している。
- 参考スコア(独自算出の注目度): 9.604390113485834
- License:
- Abstract: Generative AI presents transformative potential across various domains, from creative arts to scientific visualization. However, the utility of AI-generated imagery is often compromised by visual flaws, including anatomical inaccuracies, improper object placements, and misplaced textual elements. These imperfections pose significant challenges for practical applications. To overcome these limitations, we introduce \textit{Yuan}, a novel framework that autonomously corrects visual imperfections in text-to-image synthesis. \textit{Yuan} uniquely conditions on both the textual prompt and the segmented image, generating precise masks that identify areas in need of refinement without requiring manual intervention -- a common constraint in previous methodologies. Following the automated masking process, an advanced inpainting module seamlessly integrates contextually coherent content into the identified regions, preserving the integrity and fidelity of the original image and associated text prompts. Through extensive experimentation on publicly available datasets such as ImageNet100 and Stanford Dogs, along with a custom-generated dataset, \textit{Yuan} demonstrated superior performance in eliminating visual imperfections. Our approach consistently achieved higher scores in quantitative metrics, including NIQE, BRISQUE, and PI, alongside favorable qualitative evaluations. These results underscore \textit{Yuan}'s potential to significantly enhance the quality and applicability of AI-generated images across diverse fields.
- Abstract(参考訳): 生成AIは、創造的な芸術から科学的可視化まで、さまざまな領域にわたる変革的なポテンシャルを提示する。
しかし、AI生成画像の有用性は、解剖学的不正確さ、不適切な物体配置、誤ったテキスト要素など、視覚的欠陥によってしばしば損なわれる。
これらの欠陥は、実用化に重大な課題をもたらす。
これらの制約を克服するために,テキスト・ツー・イメージ合成における視覚的不完全性を自律的に補正する新しいフレームワークである「textit{Yuan}」を導入する。
テキストプロンプトとセグメンテーションされたイメージの両方に独自の条件を課し、手作業による介入を必要とせず、改善が必要な領域を特定する正確なマスクを生成する。
自動マスキング処理の後、高度な塗装モジュールは、コンテキスト的に一貫性のあるコンテンツを識別された領域にシームレスに統合し、元の画像の完全性と忠実さと関連するテキストプロンプトを保存する。
ImageNet100やStanford Dogsなどの公開データセットに関する広範な実験を通じて、カスタム生成されたデータセットとともに、 \textit{Yuan}は視覚的不完全性を排除する上で優れたパフォーマンスを示した。
提案手法は, NIQE, BRISQUE, PIなどの定量値において, 良好な定性評価とともに, 常に高いスコアを達成している。
これらの結果は、さまざまな分野にわたるAI生成画像の品質と適用性を著しく向上させる、‘textit{Yuan}’の可能性を裏付けるものである。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Deep Generative Adversarial Network for Occlusion Removal from a Single Image [3.5639148953570845]
本稿では,完全自動2段階畳み込みニューラルネットワークを提案する。
我々は、GANを利用して、構造とテクスチャの両方を含む現実的なコンテンツを、インペイントのための単一ショットで合成する。
論文 参考訳(メタデータ) (2024-09-20T06:00:45Z) - Safeguard Text-to-Image Diffusion Models with Human Feedback Inversion [51.931083971448885]
本稿では,Human Feedback Inversion (HFI) というフレームワークを提案する。
実験の結果,画像品質を維持しながら,好ましくないコンテンツ生成を著しく削減し,公的な領域におけるAIの倫理的展開に寄与することが示された。
論文 参考訳(メタデータ) (2024-07-17T05:21:41Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - DeepfakeArt Challenge: A Benchmark Dataset for Generative AI Art Forgery and Data Poisoning Detection [57.51313366337142]
悪意ある目的のために生成的AIを使用することについて懸念が高まっている。
生成AIを用いた視覚コンテンツ合成の領域では、画像偽造とデータ中毒が重要な関心事となっている。
DeepfakeArt Challenge(ディープフェイクアートチャレンジ)は、AIアートのジェネレーションとデータ中毒検出のための機械学習アルゴリズムの構築を支援するために設計された、大規模なチャレンジベンチマークデータセットである。
論文 参考訳(メタデータ) (2023-06-02T05:11:27Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。