論文の概要: MobileHolo: A Lightweight Complex-Valued Deformable CNN for High-Quality Computer-Generated Hologram
- arxiv url: http://arxiv.org/abs/2506.14542v1
- Date: Tue, 17 Jun 2025 14:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.506938
- Title: MobileHolo: A Lightweight Complex-Valued Deformable CNN for High-Quality Computer-Generated Hologram
- Title(参考訳): MobileHolo:高画質コンピュータ生成ホログラムのための軽量複合値変形可能なCNN
- Authors: Xie Shuyang, Zhou Jie, Xu Bo, Wang Jun, Xu Renjing,
- Abstract要約: 深層学習法はコンピュータ生成ホログラム(CGH)において重要な役割を担っている
ここでは、ネットワークへの統合のための複雑な値の変形可能な畳み込みを設計する。
ピーク信号対雑音比は、CCNN-CGH、HoloNet、Holo-Encoderより2.4dB、5.31dB、9.71dB高い。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holographic displays have significant potential in virtual reality and augmented reality owing to their ability to provide all the depth cues. Deep learning-based methods play an important role in computer-generated holograms (CGH). During the diffraction process, each pixel exerts an influence on the reconstructed image. However, previous works face challenges in capturing sufficient information to accurately model this process, primarily due to the inadequacy of their effective receptive field (ERF). Here, we designed complex-valued deformable convolution for integration into network, enabling dynamic adjustment of the convolution kernel's shape to increase flexibility of ERF for better feature extraction. This approach allows us to utilize a single model while achieving state-of-the-art performance in both simulated and optical experiment reconstructions, surpassing existing open-source models. Specifically, our method has a peak signal-to-noise ratio that is 2.04 dB, 5.31 dB, and 9.71 dB higher than that of CCNN-CGH, HoloNet, and Holo-encoder, respectively, when the resolution is 1920$\times$1072. The number of parameters of our model is only about one-eighth of that of CCNN-CGH.
- Abstract(参考訳): ホログラフィックディスプレイは、あらゆる奥行きを提供する能力のため、仮想現実と拡張現実において大きな可能性を秘めている。
ディープラーニングに基づく手法は、コンピュータ生成ホログラム(CGH)において重要な役割を果たす。
回折過程において、各画素は再構成画像に影響を与える。
しかし、従来の研究は、この過程を正確にモデル化するための十分な情報を取得することの難しさに直面する。
そこで我々は,ネットワーク統合のための複雑な値の変形可能な畳み込みを設計し,コンボリューションカーネルの形状を動的に調整し,RFの柔軟性を高めて特徴抽出を改善する。
提案手法は,既存のオープンソースモデルに勝らず,シミュレーションと光学実験の両方において,最先端性能を実現しつつ,単一のモデルを利用することを可能にする。
具体的には,解像度が1920$\times$1072のとき,CCNN-CGH,HoloNet,Holo-Encoderよりも高い2.4dB,5.31dB,9.71dBのピーク信号対雑音比を持つ。
本モデルのパラメータ数は,CCNN-CGHの約8分の1に過ぎない。
関連論文リスト
- Visual Autoregressive Modeling for Image Super-Resolution [14.935662351654601]
次世代の予測モデルとして, ISRフレームワークの視覚的自己回帰モデルを提案する。
大規模データを収集し、ロバストな生成先行情報を得るためのトレーニングプロセスを設計する。
論文 参考訳(メタデータ) (2025-01-31T09:53:47Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - DiffSCI: Zero-Shot Snapshot Compressive Imaging via Iterative Spectral
Diffusion Model [18.25548360119976]
マルチスペクトル画像(MSI)におけるスナップショット圧縮画像(SCI)再構成の精度向上を目指した。
DiffSCIと呼ばれる新しいゼロショット拡散モデルを提案する。
我々は,DiffSCIが自己監督的,ゼロショット的アプローチよりも顕著な性能向上を示すことを示すため,広範囲な試験を行った。
論文 参考訳(メタデータ) (2023-11-19T20:27:14Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。
ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。
本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:49:21Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - CUDA-Optimized real-time rendering of a Foveated Visual System [5.260841516691153]
本稿では,GPUを用いて高速(165Hz)でガウス画像(1920x1080)を効率よく生成する手法を提案する。
提案手法は生体人工エージェント間の空間変動処理の需要を満たし,既存システム上で容易にフォベーションを付加できる。
論文 参考訳(メタデータ) (2020-12-15T22:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。