論文の概要: Detecting and Restoring Non-Standard Hands in Stable Diffusion Generated
Images
- arxiv url: http://arxiv.org/abs/2312.04236v1
- Date: Thu, 7 Dec 2023 11:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:05:33.902323
- Title: Detecting and Restoring Non-Standard Hands in Stable Diffusion Generated
Images
- Title(参考訳): 安定拡散画像における非定常手の検出と復元
- Authors: Yiqun Zhang, Zhenyue Qin, Yang Liu, Dylan Campbell
- Abstract要約: 安定拡散画像における解剖学的不正確性に対処するパイプラインを提案する。
微調整検出モデルは、異常を正確に識別するために重要であり、ターゲットの修正を保証する。
身体のポーズ推定は、正確な異常修正に不可欠な手振りと位置の理解を助ける。
- 参考スコア(独自算出の注目度): 22.741144753593463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a pipeline to address anatomical inaccuracies in Stable
Diffusion generated hand images. The initial step involves constructing a
specialized dataset, focusing on hand anomalies, to train our models
effectively. A finetuned detection model is pivotal for precise identification
of these anomalies, ensuring targeted correction. Body pose estimation aids in
understanding hand orientation and positioning, crucial for accurate anomaly
correction. The integration of ControlNet and InstructPix2Pix facilitates
sophisticated inpainting and pixel-level transformation, respectively. This
dual approach allows for high-fidelity image adjustments. This comprehensive
approach ensures the generation of images with anatomically accurate hands,
closely resembling real-world appearances. Our experimental results demonstrate
the pipeline's efficacy in enhancing hand image realism in Stable Diffusion
outputs. We provide an online demo at https://fixhand.yiqun.io
- Abstract(参考訳): 安定拡散画像における解剖学的不正確性に対処するパイプラインを提案する。
最初のステップは、モデルを効果的にトレーニングするために、手動異常に焦点を当てた特別なデータセットを構築することです。
微調整検出モデルは、これらの異常を正確に識別するために重要であり、ターゲットの修正を保証する。
身体ポーズ推定は、正確な異常修正に不可欠な手振りと位置の理解を助ける。
ControlNetとInstructPix2Pixの統合は、それぞれ高度なインペイントとピクセルレベルの変換を容易にする。
この2重アプローチは高精細な画像調整を可能にする。
この包括的なアプローチにより、解剖学的に正確な手による画像の生成が保証される。
実験の結果,安定拡散出力のハンドイメージリアリズム向上におけるパイプラインの有効性が実証された。
私たちはhttps://fixhand.yiqun.ioでオンラインデモを行っています。
関連論文リスト
- AI Guided Early Screening of Cervical Cancer [0.0]
このプロジェクトでは、医療画像データセットの事前処理、強化、整理に重点を置いている。
データセットには、正常と異常の2つの分類と、追加のノイズ変動がある。
医療異常検出のための正確かつ効果的な機械学習モデルを作成するため、この徹底的なアプローチにより高品質な入力データが保証される。
論文 参考訳(メタデータ) (2024-11-19T17:39:03Z) - Efficient Data-Sketches and Fine-Tuning for Early Detection of Distributional Drift in Medical Imaging [5.1358645354733765]
本稿では,CT-Scan医療画像における分布のドリフトを検出するための,高精度かつ高感度なアプローチを提案する。
我々は,リアルタイムな異常検出のための頑健なライブラリモデルを開発し,画像の効率的な比較を可能にした。
乳がん画像から関連する特徴を抽出するために,視力変換器の事前訓練モデルを微調整した。
論文 参考訳(メタデータ) (2024-08-15T23:46:37Z) - RoFIR: Robust Fisheye Image Rectification Framework Impervious to Optical Center Deviation [88.54817424560056]
局所歪みの度合いと方向を測定する歪みベクトルマップ(DVM)を提案する。
DVMを学習することで、大域的な歪みパターンに頼ることなく、各ピクセルの局所歪みを独立に識別することができる。
事前学習段階では、歪みベクトルマップを予測し、各画素の局所歪み特徴を知覚する。
微調整段階では、魚眼画像修正のための画素単位のフローマップを予測する。
論文 参考訳(メタデータ) (2024-06-27T06:38:56Z) - Diffusion Model Driven Test-Time Image Adaptation for Robust Skin Lesion Classification [24.08402880603475]
テストデータ上でのモデルの精度を高めるためのテスト時間画像適応手法を提案する。
拡散モデルを用いて、対象の試験画像をソース領域に投影して修正する。
私たちの手法は、さまざまな汚職、アーキテクチャ、データレシエーションにおいて、堅牢性をより堅牢にします。
論文 参考訳(メタデータ) (2024-05-18T13:28:51Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - Breaking Modality Disparity: Harmonized Representation for Infrared and
Visible Image Registration [66.33746403815283]
シーン適応型赤外線と可視画像の登録を提案する。
我々は、異なる平面間の変形をシミュレートするためにホモグラフィーを用いる。
我々は、まず、赤外線と可視画像のデータセットが不一致であることを示す。
論文 参考訳(メタデータ) (2023-04-12T06:49:56Z) - Transmission-Guided Bayesian Generative Model for Smoke Segmentation [29.74065829663554]
深層ニューラルネットワークは、その非厳密な形状と透明な外観のために、煙分断を過信する傾向にある。
これは、正確な煙分別のための限られた訓練データによる知識レベルの不確かさと、地味のラベル付けの難しさを表すラベル付けレベルの不確実性の両方によって引き起こされる。
本稿では,モデルパラメータの後方分布とその予測を同時に推定するベイズ生成モデルを提案する。
また,1,400個の実画像と4,000個の合成画像からなる高品質な煙分画データセットSMOKE5Kを画素単位のアノテーションで提供した。
論文 参考訳(メタデータ) (2023-03-02T01:48:05Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Generative and Discriminative Learning for Distorted Image Restoration [22.230017059874445]
Liquifyは、画像の歪みに使用できる画像編集のテクニックである。
本稿では,深層ニューラルネットワークに基づく新しい生成的・識別的学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T14:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。