論文の概要: Gen-AI Police Sketches with Stable Diffusion
- arxiv url: http://arxiv.org/abs/2507.18667v1
- Date: Thu, 24 Jul 2025 04:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.696111
- Title: Gen-AI Police Sketches with Stable Diffusion
- Title(参考訳): 安定拡散したGen-AI警察のケッチ
- Authors: Nicholas Fidalgo, Aaron Contreras, Katherine Harvey, Johnny Ni,
- Abstract要約: 本研究は,疑似スケッチの自動化と強化を目的としたマルチモーダルAI駆動型アプローチについて検討する。
1)ベースライン画像から画像への安定拡散モデル,(2)テキスト画像アライメントのためのトレーニング済みCLIPモデルと統合された同一モデル,(3)LoRAによるCLIPモデルの微調整を取り入れた新しいアプローチ,の3つのパイプラインを開発し評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This project investigates the use of multimodal AI-driven approaches to automate and enhance suspect sketching. Three pipelines were developed and evaluated: (1) baseline image-to-image Stable Diffusion model, (2) same model integrated with a pre-trained CLIP model for text-image alignment, and (3) novel approach incorporating LoRA fine-tuning of the CLIP model, applied to self-attention and cross-attention layers, and integrated with Stable Diffusion. An ablation study confirmed that fine-tuning both self- and cross-attention layers yielded the best alignment between text descriptions and sketches. Performance testing revealed that Model 1 achieved the highest structural similarity (SSIM) of 0.72 and a peak signal-to-noise ratio (PSNR) of 25 dB, outperforming Model 2 and Model 3. Iterative refinement enhanced perceptual similarity (LPIPS), with Model 3 showing improvement over Model 2 but still trailing Model 1. Qualitatively, sketches generated by Model 1 demonstrated the clearest facial features, highlighting its robustness as a baseline despite its simplicity.
- Abstract(参考訳): 本研究は,疑似スケッチの自動化と強化を目的としたマルチモーダルAI駆動型アプローチについて検討する。
1)ベースライン画像から画像への安定拡散モデル,(2)テキスト画像アライメントのためのトレーニング済みCLIPモデルと統合された同一モデル,(3)CLIPモデルのLoRA微調整を取り入れた新しいアプローチ,そして自己注意層とクロスアテンション層に適用し,Stable Diffusionと統合した3つのパイプラインを開発し評価した。
アブレーション研究では、自己と横断的なレイヤーの両方を微調整することで、テキスト記述とスケッチの最良の整合性が得られることが確認された。
性能試験の結果,モデル1は最大構造類似度(SSIM)が0.72,ピーク信号-雑音比(PSNR)が25dB,モデル2とモデル3を上回った。
反復改良により知覚類似性(LPIPS)が向上し、モデル3はモデル2よりも改善されているがモデル1に追随している。
質的に言えば、Model 1が生み出したスケッチは最も明快な顔の特徴を示し、シンプルさにもかかわらずベースラインとしての頑丈さを強調した。
関連論文リスト
- Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。
数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文 参考訳(メタデータ) (2025-03-20T09:18:10Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation [36.45488536471859]
類似性は、ラベルのない画像を使用することで画像と画像の類似性を洗練する。
重みは、トレーニングサンプル間の関係を適切にモデル化するために、精度行列を重み関数に導入する。
GPの複雑さを低減するため,グループベースの学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-11T15:12:30Z) - Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文 参考訳(メタデータ) (2024-09-23T00:51:47Z) - Pseudo-triplet Guided Few-shot Composed Image Retrieval [20.040511832864503]
Composed Image Retrieval (CIR)は、マルチモーダルクエリでターゲット画像を取得することを目的とした課題である。
PTG-FSCIRと呼ばれる2段階の擬似三重項誘導方式を提案する。
最初の段階では、純画像データから擬似三重項を生成するために、注意型マスキングとキャプションに基づく擬似三重項生成法を提案する。
第2段階では,3重項に基づく挑戦的CIR微調整法を提案し,擬似修正テキストに基づくサンプルの挑戦的スコア推定戦略を設計する。
論文 参考訳(メタデータ) (2024-07-08T14:53:07Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Learning Integrodifferential Models for Image Denoising [14.404339094377319]
画像復調のためのエッジエンハンシング異方性拡散モデルの積分微分拡張を導入する。
重み付けされた構造情報を複数のスケールで蓄積することにより,マルチスケール統合による異方性の生成を初めて行う。
論文 参考訳(メタデータ) (2020-10-21T10:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。