論文の概要: MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360
Degree Image Saliency Prediction
- arxiv url: http://arxiv.org/abs/2303.08525v1
- Date: Wed, 15 Mar 2023 11:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 13:59:00.601010
- Title: MRGAN360: Multi-stage Recurrent Generative Adversarial Network for 360
Degree Image Saliency Prediction
- Title(参考訳): MRGAN360:360度画像の残差予測のための多段階連続生成逆数ネットワーク
- Authors: Pan Gao, Xinlang Chen, Rong Quan, Wei Xiang
- Abstract要約: MRGAN360 と呼ばれる ODI のための多段階連続生成対向ネットワークを提案する。
各段階で、予測モデルは、元の画像と前のステージの出力を入力として、より正確な唾液マップを出力する。
相関関係をモデル化するために、隣接した予測段階間で繰り返しニューラルネットワークを用い、各段階の終端における判別器を利用して出力唾液マップを監督する。
- 参考スコア(独自算出の注目度): 10.541086214760497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Thanks to the ability of providing an immersive and interactive experience,
the uptake of 360 degree image content has been rapidly growing in consumer and
industrial applications. Compared to planar 2D images, saliency prediction for
360 degree images is more challenging due to their high resolutions and
spherical viewing ranges. Currently, most high-performance saliency prediction
models for omnidirectional images (ODIs) rely on deeper or broader
convolutional neural networks (CNNs), which benefit from CNNs' superior feature
representation capabilities while suffering from their high computational
costs. In this paper, inspired by the human visual cognitive process, i.e.,
human being's perception of a visual scene is always accomplished by multiple
stages of analysis, we propose a novel multi-stage recurrent generative
adversarial networks for ODIs dubbed MRGAN360, to predict the saliency maps
stage by stage. At each stage, the prediction model takes as input the original
image and the output of the previous stage and outputs a more accurate saliency
map. We employ a recurrent neural network among adjacent prediction stages to
model their correlations, and exploit a discriminator at the end of each stage
to supervise the output saliency map. In addition, we share the weights among
all the stages to obtain a lightweight architecture that is computationally
cheap. Extensive experiments are conducted to demonstrate that our proposed
model outperforms the state-of-the-art model in terms of both prediction
accuracy and model size.
- Abstract(参考訳): 没入的でインタラクティブな体験を提供する能力のおかげで、消費者や産業アプリケーションでは360度画像コンテンツの利用が急速に増加している。
平面2d画像と比較すると、360度画像のサリエンシー予測は高解像度と球面観察範囲のためより困難である。
現在、全方位画像(ODI)の高性能なサリエンシ予測モデルは、CNNの優れた特徴表現能力の恩恵を受けるため、より深いあるいはより広い畳み込みニューラルネットワーク(CNN)に依存している。
本稿では,人間の視覚認知過程,すなわち人間の視覚的シーンに対する認識が,複数の解析段階によって常に達成されることに着想を得て,MRGAN360と呼ばれるODIのための多段階反復生成対向ネットワークを提案する。
各段階で、予測モデルは、元の画像と前のステージの出力を入力として、より正確な唾液マップを出力する。
我々は,隣接予測段階間の再帰的ニューラルネットワークを用いて相関関係をモデル化し,各段階の終端の判別器を用いて,出力サリエンシーマップを監督する。
さらに,計算コストの低い軽量アーキテクチャを実現するために,各ステージ間で重みを共有している。
提案モデルが予測精度とモデルサイズの両方において最先端モデルよりも優れていることを示すために,広範な実験を行った。
関連論文リスト
- pAE: An Efficient Autoencoder Architecture for Modeling the Lateral Geniculate Nucleus by Integrating Feedforward and Feedback Streams in Human Visual System [0.716879432974126]
本稿では,人間の視覚情報処理を近似した深部畳み込みモデルを提案する。
本研究の目的は、訓練された浅部畳み込みモデルを用いて、外側原核(LGN)領域の機能を近似することである。
pAEモデルは最終99.26%の予測性能を達成し、時間モードでの人間の結果よりも約28%向上したことを示す。
論文 参考訳(メタデータ) (2024-09-20T16:33:01Z) - Uncertainty in AI: Evaluating Deep Neural Networks on
Out-of-Distribution Images [0.0]
本稿では、摂動データを扱う際に、ResNet-50、VGG16、DenseNet121、AlexNet、GoogleNetなど様々なディープニューラルネットワークの不確実性について検討する。
ResNet-50はOODイメージの最も正確なシングルモデルであったが、アンサンブルはより良く、すべてのイメージを正しく分類した。
論文 参考訳(メタデータ) (2023-09-04T22:46:59Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - Capturing Omni-Range Context for Omnidirectional Segmentation [29.738065412097598]
本稿では,fovと画像領域間の構造分布のギャップを埋めるために,並列注意ネットワーク(ecanets)を導入する。
ラベル付きデータとラベルなしデータの両方を利用して、マルチソースとオムニバイザード学習を活用してモデルトレーニングをアップグレードします。
我々の新しいモデル、トレーニング規則およびマルチソース予測融合は、新しい最先端結果に性能(mIoU)を上昇させる。
論文 参考訳(メタデータ) (2021-03-09T19:46:09Z) - Perceiver: General Perception with Iterative Attention [85.65927856589613]
我々は,トランスフォーマーを基盤とするモデルであるperceiverを紹介する。
このアーキテクチャは、分類タスクにおいて、競争的、または強固な、専門的なモデル以上のパフォーマンスを示す。
また、AudioSetのすべてのモダリティの最先端の結果を超えています。
論文 参考訳(メタデータ) (2021-03-04T18:20:50Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。