論文の概要: MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image
- arxiv url: http://arxiv.org/abs/2103.02997v1
- Date: Thu, 4 Mar 2021 12:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:56:57.428945
- Title: MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image
- Title(参考訳): MOGAN:単一画像からの形態学的構造認識ジェネラティブラーニング
- Authors: Jinshu Chen, Qihui Xu, Qi Kang and MengChu Zhou
- Abstract要約: 近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
- 参考スコア(独自算出の注目度): 59.59698650663925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most interactive image generation tasks, given regions of interest (ROI)
by users, the generated results are expected to have adequate diversities in
appearance while maintaining correct and reasonable structures in original
images. Such tasks become more challenging if only limited data is available.
Recently proposed generative models complete training based on only one image.
They pay much attention to the monolithic feature of the sample while ignoring
the actual semantic information of different objects inside the sample. As a
result, for ROI-based generation tasks, they may produce inappropriate samples
with excessive randomicity and without maintaining the related objects' correct
structures. To address this issue, this work introduces a
MOrphologic-structure-aware Generative Adversarial Network named MOGAN that
produces random samples with diverse appearances and reliable structures based
on only one image. For training for ROI, we propose to utilize the data coming
from the original image being augmented and bring in a novel module to
transform such augmented data into knowledge containing both structures and
appearances, thus enhancing the model's comprehension of the sample. To learn
the rest areas other than ROI, we employ binary masks to ensure the generation
isolated from ROI. Finally, we set parallel and hierarchical branches of the
mentioned learning process. Compared with other single image GAN schemes, our
approach focuses on internal features including the maintenance of rational
structures and variation on appearance. Experiments confirm a better capacity
of our model on ROI-based image generation tasks than its competitive peers.
- Abstract(参考訳): ユーザの関心領域(ROI)が与えられたほとんどのインタラクティブな画像生成タスクにおいて、生成した結果は、元の画像の正確かつ合理的な構造を維持しつつ、外観に適切な多様性が期待できる。
このようなタスクは、限られたデータしか利用できない場合、より困難になる。
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
彼らはサンプル内の異なるオブジェクトの実際の意味情報を無視しながら、サンプルのモノリシックな特徴に多くの注意を払います。
その結果、ROIベースの生成タスクでは、関連するオブジェクトの正しい構造を維持することなく、過度のランダム性を持つ不適切なサンプルを生成する可能性があります。
この問題に対処するために,MOGAN と呼ばれるMOrphological-aware Generative Adversarial Networkを導入し,単一の画像のみに基づいて,多様な外観と信頼性を有するランダムなサンプルを生成する。
roiのトレーニングのために,原画像からのデータを拡張し,これらの拡張データを構造と外観の両方を含む知識に変換する新しいモジュールを導入することで,モデルのサンプル理解を高めることを提案する。
ROI以外の残りの領域を学ぶために、ROIから分離された生成を保証するためにバイナリマスクを使用します。
最後に、上記の学習プロセスの並列および階層的な分岐を設定した。
他の単一画像GAN方式と比較して,本手法は合理的な構造維持や外観の変化など,内部的な特徴に重点を置いている。
実験では、ROIベースの画像生成タスクにおける私たちのモデルの能力は、競合相手よりも優れています。
関連論文リスト
- RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model [22.56227565913003]
本稿では、基礎モデルの観点から、RSBuildingと呼ばれる総合的なリモートセンシング画像構築モデルを提案する。
RSBuildingはクロスシーンの一般化とタスク理解を強化するように設計されている。
我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。
論文 参考訳(メタデータ) (2024-03-12T11:51:59Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation [25.96740500337747]
GAN(Generative Adversarial Network)は、自然画像の分野で顕著な進歩を遂げている。
GANモデルは、自然な画像生成よりも、RS画像生成のためのトレーニングデータのサイズに敏感である。
本稿では,一様正則化(UR)とエントロピー正則化(ER)という2つの革新的な調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T13:22:50Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - Improving Learning Effectiveness For Object Detection and Classification
in Cluttered Backgrounds [6.729108277517129]
本稿では,異種乱雑な背景の学習データセットを自律的に生成するフレームワークを開発する。
提案するフレームワークの学習効率は,複雑で異種な環境で改善されるべきである。
提案フレームワークの性能を実証実験により検討し,COCOデータセットを用いてトレーニングしたモデルと比較した。
論文 参考訳(メタデータ) (2020-02-27T22:28:48Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。