論文の概要: Semantically Multi-modal Image Synthesis
- arxiv url: http://arxiv.org/abs/2003.12697v3
- Date: Thu, 2 Apr 2020 09:07:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:46:34.976040
- Title: Semantically Multi-modal Image Synthesis
- Title(参考訳): 意味的マルチモーダル画像合成
- Authors: Zhen Zhu, Zhiliang Xu, Ansheng You, Xiang Bai
- Abstract要約: セマンティックなマルチモーダル画像合成(SMIS)タスク、すなわちセマンティックレベルでのマルチモーダル画像の生成に焦点を当てる。
本稿では,ジェネレータ内のグループ畳み込みを利用して,デコーダ内のグループ畳み込み数を徐々に減少させるグループ除算ネットワーク(GroupDNet)を提案する。
GroupDNetは、セマンティックラベルを自然なイメージに翻訳する上で、はるかに制御性が高く、多くのクラスを持つデータセットに対して、高い品質の収量を持つ。
- 参考スコア(独自算出の注目度): 58.87967932525891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on semantically multi-modal image synthesis (SMIS)
task, namely, generating multi-modal images at the semantic level. Previous
work seeks to use multiple class-specific generators, constraining its usage in
datasets with a small number of classes. We instead propose a novel Group
Decreasing Network (GroupDNet) that leverages group convolutions in the
generator and progressively decreases the group numbers of the convolutions in
the decoder. Consequently, GroupDNet is armed with much more controllability on
translating semantic labels to natural images and has plausible high-quality
yields for datasets with many classes. Experiments on several challenging
datasets demonstrate the superiority of GroupDNet on performing the SMIS task.
We also show that GroupDNet is capable of performing a wide range of
interesting synthesis applications. Codes and models are available at:
https://github.com/Seanseattle/SMIS.
- Abstract(参考訳): 本稿では,セマンティックなマルチモーダル画像合成(SMIS)タスク,すなわち意味レベルでのマルチモーダル画像の生成に焦点を当てる。
以前の作業では、複数のクラス固有のジェネレータを使用しており、少数のクラスでデータセットでの使用を制限している。
代わりに、ジェネレータ内のグループ畳み込みを活用し、デコーダ内のグループ畳み込みの数を徐々に減少させる新しいグループ除きネットワーク(GroupDNet)を提案する。
その結果、groupdnetは、セマンティックラベルを自然画像に変換する際の制御性が大幅に向上し、多くのクラスを持つデータセットの高品質な利得が実現可能である。
いくつかの挑戦的なデータセットの実験は、SMISタスクの実行におけるGroupDNetの優位性を示している。
また、GroupDNetは様々な興味深い合成アプリケーションを実行可能であることを示す。
コードとモデルは、https://github.com/Seanseattle/SMIS.comで入手できる。
関連論文リスト
- Cross Group Attention and Group-wise Rolling for Multimodal Medical Image Synthesis [22.589087990596887]
マルチモーダルMR画像合成は、いくつかのMRIデータを融合してマッピングすることで、欠落したモダリティ画像を生成することを目的としている。
マルチモーダルMR画像合成におけるモダリティ間関係とモダリティ間関係の両方を探索するAdaptive Group-wise Interaction Network (AGI-Net)を提案する。
論文 参考訳(メタデータ) (2024-11-22T02:29:37Z) - GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - Learning Multi-Attention Context Graph for Group-Based Re-Identification [214.84551361855443]
オーバーラップしていないカメラシステムを介して人々のグループを再識別または取得することを学ぶことは、ビデオ監視において重要なアプリケーションです。
本研究では,グループre-idというグループを識別するためのコンテキスト情報の利用を検討する。
本研究では,グループベースリドタスクを同時に処理するグラフニューラルネットワークに基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T09:57:47Z) - DoDNet: Learning to segment multi-organ and tumors from multiple
partially labeled datasets [102.55303521877933]
本稿では,複数の臓器と腫瘍を部分的にラベル付けしたデータセット上に分割する動的オンデマンドネットワーク(DoDNet)を提案する。
DoDNetは共有エンコーダデコーダアーキテクチャ、タスク符号化モジュール、動的畳み込みフィルタを生成するコントローラ、そして単一だが動的セグメンテーションヘッドで構成されている。
論文 参考訳(メタデータ) (2020-11-20T04:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。