論文の概要: Dynamic-Pix2Pix: Noise Injected cGAN for Modeling Input and Target
Domain Joint Distributions with Limited Training Data
- arxiv url: http://arxiv.org/abs/2211.08570v1
- Date: Tue, 15 Nov 2022 23:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:22:32.218956
- Title: Dynamic-Pix2Pix: Noise Injected cGAN for Modeling Input and Target
Domain Joint Distributions with Limited Training Data
- Title(参考訳): Dynamic-Pix2Pix:限られた訓練データを用いた入力領域とターゲット領域の関節分布のモデル化のためのノイズ注入cGAN
- Authors: Mohammadreza Naderi, Nader Karimi, Ali Emami, Shahram Shirani,
Shadrokh Samavi
- Abstract要約: 条件付き条件対応ネットワーク(cGAN)は、画像の翻訳において最も一般的なモデルである。
我々は、動的ニューラルネットワーク理論の助けを借りて、Pix2Pix(cGANの形式)のターゲット分布モデリング能力を向上させる。
我々のモデルはHC18とモンゴメリーの胸部X線画像のセグメント化においてPix2Pixモデルを上回る。
- 参考スコア(独自算出の注目度): 14.742704050894993
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning to translate images from a source to a target domain with
applications such as converting simple line drawing to oil painting has
attracted significant attention. The quality of translated images is directly
related to two crucial issues. First, the consistency of the output
distribution with that of the target is essential. Second, the generated output
should have a high correlation with the input. Conditional Generative
Adversarial Networks, cGANs, are the most common models for translating images.
The performance of a cGAN drops when we use a limited training dataset. In this
work, we increase the Pix2Pix (a form of cGAN) target distribution modeling
ability with the help of dynamic neural network theory. Our model has two
learning cycles. The model learns the correlation between input and ground
truth in the first cycle. Then, the model's architecture is refined in the
second cycle to learn the target distribution from noise input. These processes
are executed in each iteration of the training procedure. Helping the cGAN
learn the target distribution from noise input results in a better model
generalization during the test time and allows the model to fit almost
perfectly to the target domain distribution. As a result, our model surpasses
the Pix2Pix model in segmenting HC18 and Montgomery's chest x-ray images. Both
qualitative and Dice scores show the superiority of our model. Although our
proposed method does not use thousand of additional data for pretraining, it
produces comparable results for the in and out-domain generalization compared
to the state-of-the-art methods.
- Abstract(参考訳): 簡単な線画から油絵への変換などの応用により,ソースからターゲット領域への変換を学習することが注目されている。
翻訳画像の品質は、2つの重要な問題に直接関係している。
まず、出力分布と対象の出力分布の整合性が不可欠である。
第二に、生成された出力は入力と高い相関を持つべきである。
cgan (conditional generative adversarial network) は、画像変換の最も一般的なモデルである。
cGANのパフォーマンスは、限られたトレーニングデータセットを使用すると低下します。
本研究では,動的ニューラルネットワーク理論を用いて,pix2pix(cganの一形態)のターゲット分布モデリング能力を向上させる。
私たちのモデルは2つの学習サイクルがあります。
モデルは、入力と基底の真理の相関を第一サイクルで学習する。
そして、モデルアーキテクチャを第2サイクルで洗練し、ノイズ入力から目標分布を学習する。
これらのプロセスはトレーニング手順の各イテレーションで実行される。
cGANがノイズ入力から対象の分布を学習するのを助けることで、テスト期間中のモデル一般化がより良くなり、対象の領域分布にほぼ完全に適合する。
その結果、HC18とモンゴメリーの胸部X線画像の分割においてPix2Pixモデルを上回った。
質的スコアとダイススコアの両方が、我々のモデルの優越性を示している。
提案手法は事前学習に数千の付加データを使用しないが,最先端の手法と比較して内外領域の一般化に匹敵する結果が得られる。
関連論文リスト
- FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ZoDi: Zero-Shot Domain Adaptation with Diffusion-Based Image Transfer [13.956618446530559]
本稿では,ZoDiと呼ばれる拡散モデルに基づくゼロショット領域適応手法を提案する。
まず,原画像の領域を対象領域に転送することで,対象画像の合成にオフ・ザ・シェルフ拡散モデルを用いる。
次に、元の表現でソース画像と合成画像の両方を用いてモデルを訓練し、ドメイン・ロバスト表現を学習する。
論文 参考訳(メタデータ) (2024-03-20T14:58:09Z) - The Hidden Linear Structure in Score-Based Models and its Application [2.1756081703276]
十分に訓練された拡散モデルでは、高雑音スケールでの学習スコアはガウスの線形スコアによってよく近似されることを示す。
スコアベースモデルにおける線形構造の発見は、より良いモデル設計とデータ前処理に影響を及ぼす。
論文 参考訳(メタデータ) (2023-11-17T22:25:07Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Synthetic Learning: Learn From Distributed Asynchronized Discriminator
GAN Without Sharing Medical Image Data [21.725983290877753]
我々は分散非同期識別器GAN(AsynDGAN)という名前の分散GAN学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-29T21:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。