論文の概要: Diffusion-based image inpainting with internal learning
- arxiv url: http://arxiv.org/abs/2406.04206v1
- Date: Thu, 6 Jun 2024 16:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:10:28.850931
- Title: Diffusion-based image inpainting with internal learning
- Title(参考訳): 拡散に基づく内的学習による画像のインペインティング
- Authors: Nicolas Cherel, Andrés Almansa, Yann Gousseau, Alasdair Newson,
- Abstract要約: 本稿では,1枚の画像,あるいは数枚の画像でトレーニング可能な画像インペイントのための軽量拡散モデルを提案する。
このアプローチは,特定のケースにおいて,最先端の大規模モデルと競合することを示す。
- 参考スコア(独自算出の注目度): 4.912318087940015
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models are now the undisputed state-of-the-art for image generation and image restoration. However, they require large amounts of computational power for training and inference. In this paper, we propose lightweight diffusion models for image inpainting that can be trained on a single image, or a few images. We show that our approach competes with large state-of-the-art models in specific cases. We also show that training a model on a single image is particularly relevant for image acquisition modality that differ from the RGB images of standard learning databases. We show results in three different contexts: texture images, line drawing images, and materials BRDF, for which we achieve state-of-the-art results in terms of realism, with a computational load that is greatly reduced compared to concurrent methods.
- Abstract(参考訳): 拡散モデルは現在、画像生成と画像復元の最先端技術である。
しかし、トレーニングや推論には大量の計算能力が必要である。
本稿では,1枚の画像,あるいは数枚の画像でトレーニング可能な画像インペイントのための軽量拡散モデルを提案する。
このアプローチは,特定のケースにおいて,最先端の大規模モデルと競合することを示す。
また、1つの画像上でモデルをトレーニングすることは、標準学習データベースのRGB画像とは異なる画像取得のモダリティに特に関係していることを示す。
我々は,テクスチャ画像,線描画画像,BRDFの3つの異なるコンテキストで結果を示す。
関連論文リスト
- PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。
我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。
画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-10-29T11:49:39Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - BlendGAN: Learning and Blending the Internal Distributions of Single
Images by Spatial Image-Identity Conditioning [37.21764919074815]
単一画像生成法は、複数のスケールで単一の自然な画像の内部パッチ分布を学習するために設計されている。
複数の画像の内部分布を同時に学習できる拡張フレームワークを提案する。
私たちのBlendGANは、シングルイメージモデルでサポートされていないアプリケーションへの扉を開きます。
論文 参考訳(メタデータ) (2022-12-03T10:38:27Z) - Retrieval-Augmented Diffusion Models [11.278903078792917]
本稿では,拡散モデルを検索ベースアプローチで補完し,外部データベースの形式で明示的なメモリを導入することを提案する。
CLIPの合同画像テキスト埋め込み空間を活用することで、我々のモデルは、明示的に訓練されていないタスクにおいて、非常に競争力のある性能を達成することができる。
我々の手法は計算とメモリのオーバーヘッドが低く、実装が容易である。
論文 参考訳(メタデータ) (2022-04-25T17:55:26Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Blind Motion Deblurring through SinGAN Architecture [21.104218472462907]
ブラインド・モーション・デブロワーリングは、ぼやけた観察から鋭いイメージを再構成する。
SinGANは無条件の生成モデルであり、単一の自然な画像から学習することができる。
論文 参考訳(メタデータ) (2020-11-07T06:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。