論文の概要: Increasing diversity of omni-directional images generated from single
image using cGAN based on MLPMixer
- arxiv url: http://arxiv.org/abs/2309.08129v1
- Date: Fri, 15 Sep 2023 03:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:13:25.077972
- Title: Increasing diversity of omni-directional images generated from single
image using cGAN based on MLPMixer
- Title(参考訳): MLPMixerに基づくcGANを用いた一方向画像の多様性の向上
- Authors: Atsuya Nakata, Ryuto Miyazaki, Takao Yamanaka
- Abstract要約: 従来の手法は畳み込みニューラルネットワーク(CNN)に基づく生成的敵ネットワークに依存していた。
TheMixerは、長距離依存関係とコンテキスト情報をキャプチャするトランスフォーマーの自己アテンションの代替として提案されている。
その結果、メモリ消費と計算コストの削減により競合性能が達成された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel approach to generating omni-directional images
from a single snapshot picture. The previous method has relied on the
generative adversarial networks based on convolutional neural networks (CNN).
Although this method has successfully generated omni-directional images, CNN
has two drawbacks for this task. First, since a convolutional layer only
processes a local area, it is difficult to propagate the information of an
input snapshot picture embedded in the center of the omni-directional image to
the edges of the image. Thus, the omni-directional images created by the
CNN-based generator tend to have less diversity at the edges of the generated
images, creating similar scene images. Second, the CNN-based model requires
large video memory in graphics processing units due to the nature of the deep
structure in CNN since shallow-layer networks only receives signals from a
limited range of the receptive field. To solve these problems, MLPMixer-based
method was proposed in this paper. The MLPMixer has been proposed as an
alternative to the self-attention in the transformer, which captures long-range
dependencies and contextual information. This enables to propagate information
efficiently in the omni-directional image generation task. As a result,
competitive performance has been achieved with reduced memory consumption and
computational cost, in addition to increasing diversity of the generated
omni-directional images.
- Abstract(参考訳): 本稿では,単一のスナップショット画像から全方位画像を生成する新しい手法を提案する。
従来の手法は畳み込みニューラルネットワーク(CNN)に基づく生成的敵ネットワークに依存していた。
この手法は全方位画像の生成に成功しているが,CNNには2つの欠点がある。
まず、畳み込み層が局所領域のみを処理するため、全方位画像の中央に埋め込まれた入力スナップショット画像の情報を画像のエッジに伝播させることは困難である。
したがって、cnnベースのジェネレータによって作成された全方位画像は、生成された画像の端において多様性が少なくなり、類似したシーン画像を生成する傾向がある。
第二に、CNNベースのモデルは、浅い層ネットワークが受容領域の限られた範囲からのみ信号を受信するため、CNNの深い構造の性質のため、グラフィックス処理ユニットにおいて大きなビデオメモリを必要とする。
これらの問題を解決するために,MLPMixer を用いた手法を提案する。
MLPMixerは、長距離依存関係とコンテキスト情報をキャプチャするトランスフォーマーにおける自己注意の代替として提案されている。
これにより、全方向画像生成タスクにおいて、情報を効率的に伝播することができる。
その結果、生成した全方位画像の多様性の向上に加えて、メモリ消費と計算コストの削減により競合性能が達成された。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - Image Generation with Self Pixel-wise Normalization [17.147675335268282]
領域適応正規化(RAN)法はGAN(Generative Adversarial Network)に基づく画像と画像の変換技術で広く用いられている。
本稿では,マスク画像のない画素適応アフィン変換を行うことにより,自己画素ワイド正規化(SPN)と呼ばれる新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:14:31Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - ResMLP: Feedforward networks for image classification with
data-efficient training [73.26364887378597]
画像分類のための多層パーセプトロン上に構築されたアーキテクチャであるResMLPを提案する。
Timmライブラリと事前トレーニングされたモデルに基づいたコードを共有します。
論文 参考訳(メタデータ) (2021-05-07T17:31:44Z) - Adaptive Multiplane Image Generation from a Single Internet Picture [1.8961324344454253]
一つの高解像度画像から多面体画像(MPI)を生成する問題に対処する。
可変枚数の画像平面を持つMPIを生成する適応スライシングアルゴリズムを提案する。
本研究では,従来の手法に比べて一桁のパラメータで高品質な予測が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:35:05Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。