論文の概要: SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model
- arxiv url: http://arxiv.org/abs/2402.18068v3
- Date: Mon, 18 Nov 2024 15:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:25.379552
- Title: SynArtifact: Classifying and Alleviating Artifacts in Synthetic Images via Vision-Language Model
- Title(参考訳): SynArtifact:視覚言語モデルによる合成画像中のアーティファクトの分類と緩和
- Authors: Bin Cao, Jianhao Yuan, Yexin Liu, Jian Li, Shuyang Sun, Jing Liu, Bo Zhao,
- Abstract要約: 総合的なアーティファクト分類法を開発し、微調整視覚言語モデル(VLM)のためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
- 参考スコア(独自算出の注目度): 15.616316848126642
- License:
- Abstract: In the rapidly evolving area of image synthesis, a serious challenge is the presence of complex artifacts that compromise perceptual realism of synthetic images. To alleviate artifacts and improve quality of synthetic images, we fine-tune Vision-Language Model (VLM) as artifact classifier to automatically identify and classify a wide range of artifacts and provide supervision for further optimizing generative models. Specifically, we develop a comprehensive artifact taxonomy and construct a dataset of synthetic images with artifact annotations for fine-tuning VLM, named SynArtifact-1K. The fine-tuned VLM exhibits superior ability of identifying artifacts and outperforms the baseline by 25.66%. To our knowledge, this is the first time such end-to-end artifact classification task and solution have been proposed. Finally, we leverage the output of VLM as feedback to refine the generative model for alleviating artifacts. Visualization results and user study demonstrate that the quality of images synthesized by the refined diffusion model has been obviously improved.
- Abstract(参考訳): 画像合成の急速に発展する領域において、深刻な課題は、合成画像の知覚的リアリズムを損なう複雑な人工物の存在である。
人工画像の品質を向上させるため,我々は,多種多様な人工物を自動的に識別・分類し,生成モデルをさらに最適化するための監督を行うために,人工物分類器としてVLM(Vision-Language Model)を微調整した。
具体的には、総合的なアーティファクト分類法を開発し、SynArtifact-1Kという名前の細調整VLMのためのアーティファクトアノテーションを用いた合成画像のデータセットを構築する。
微調整されたVLMは、アーティファクトを識別し、ベースラインを25.66%上回る優れた能力を示す。
私たちの知る限り、このようなエンドツーエンドのアーティファクト分類タスクとソリューションが提案されたのはこれが初めてです。
最後に,VLMの出力をフィードバックとして利用して,人工物の緩和のための生成モデルを改良する。
可視化結果とユーザスタディは、洗練された拡散モデルにより合成された画像の品質が明らかに改善されたことを示す。
関連論文リスト
- Harnessing the Power of Large Vision Language Models for Synthetic Image Detection [14.448350657613364]
本研究では,合成画像識別における高度な視覚言語モデル(VLM)の有効性について検討した。
大規模VLMの頑健な理解能力を活用することにより,拡散モデルによる合成画像と真正画像の識別が目的である。
論文 参考訳(メタデータ) (2024-04-03T13:27:54Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - UAV-Sim: NeRF-based Synthetic Data Generation for UAV-based Perception [62.71374902455154]
ニューラルレンダリングの最近の進歩を利用して、静的および動的ノベルビューUAVベースの画像レンダリングを改善する。
本研究では,主に実データと合成データのハイブリッドセットに基づいて最先端検出モデルが最適化された場合,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-25T00:20:37Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Image Completion via Inference in Deep Generative Models [16.99337751292915]
画像生成モデルにおける償却推論の観点から画像完成を検討する。
CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。
論文 参考訳(メタデータ) (2021-02-24T02:59:43Z) - You Only Need Adversarial Supervision for Semantic Image Synthesis [84.83711654797342]
我々は,高品質な結果を得るためには敵対的監督のみを必要とする,新しい簡易ganモデルを提案する。
本モデルによって合成された画像はより多様であり,実画像の色やテクスチャに密接に従っている。
論文 参考訳(メタデータ) (2020-12-08T23:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。