論文の概要: GLIMPSE: Generalized Local Imaging with MLPs
- arxiv url: http://arxiv.org/abs/2401.00816v2
- Date: Thu, 20 Jun 2024 14:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:48:32.038531
- Title: GLIMPSE: Generalized Local Imaging with MLPs
- Title(参考訳): GLIMPSE: MLPを用いた局所イメージング
- Authors: AmirEhsan Khorashadizadeh, Valentin Debarnot, Tianlin Liu, Ivan Dokmanić,
- Abstract要約: 深層学習は、断層撮影における芸術の事実上の状態である。
一般的なアプローチは、単純な反転の結果を畳み込みニューラルネットワーク(CNN)に供給し、再構成を計算することである。
計算トモグラフィーのための局所処理ニューラルネットワークであるGLIMPSEを導入し,画素近傍の計測値のみを供給することによって画素値を再構成する。
- 参考スコア(独自算出の注目度): 10.657105348034753
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning is the current de facto state of the art in tomographic imaging. A common approach is to feed the result of a simple inversion, for example the backprojection, to a convolutional neural network (CNN) which then computes the reconstruction. Despite strong results on 'in-distribution' test data similar to the training data, backprojection from sparse-view data delocalizes singularities, so these approaches require a large receptive field to perform well. As a consequence, they overfit to certain global structures which leads to poor generalization on out-of-distribution (OOD) samples. Moreover, their memory complexity and training time scale unfavorably with image resolution, making them impractical for application at realistic clinical resolutions, especially in 3D: a standard U-Net requires a substantial 140GB of memory and 2600 seconds per epoch on a research-grade GPU when training on 1024x1024 images. In this paper, we introduce GLIMPSE, a local processing neural network for computed tomography which reconstructs a pixel value by feeding only the measurements associated with the neighborhood of the pixel to a simple MLP. While achieving comparable or better performance with successful CNNs like the U-Net on in-distribution test data, GLIMPSE significantly outperforms them on OOD samples while maintaining a memory footprint almost independent of image resolution; 5GB memory suffices to train on 1024x1024 images. Further, we built GLIMPSE to be fully differentiable, which enables feats such as recovery of accurate projection angles if they are out of calibration.
- Abstract(参考訳): 深層学習(Deep learning)は、現在の断層撮影における最先端技術である。
一般的なアプローチは、単純な逆転、例えばバックプロジェクションの結果を畳み込みニューラルネットワーク(CNN)に供給し、再構成を計算することである。
トレーニングデータに類似した「分布内」テストデータに対する強い結果にもかかわらず、スパースビューデータからのバックプロジェクションは特異点を非局在化するため、これらのアプローチは高い受容野を必要とする。
その結果、それらは特定のグローバル構造に過度に適合し、オフ・オブ・ディストリビューション(OOD)サンプルの一般化が不十分になる。
標準的なU-Netは、1024x1024イメージのトレーニングでは、研究グレードのGPU上で、140GBのメモリと2600秒毎のエポックを必要とする。
本稿では,計算トモグラフィの局所処理ニューラルネットワークであるGLIMPSEについて述べる。
U-Netのような成功したCNNと同等あるいはより良いパフォーマンスを、分散テストデータで達成する一方で、GLIMPSEは、OODサンプルにおいて、画像解像度にほぼ依存せず、メモリフットプリントが5GBで1024x1024イメージでトレーニングできるため、大幅にパフォーマンスが向上している。
さらに, GLIMPSEを完全微分可能とし, キャリブレーションから外れた場合には, 正確な投影角の復元などを行うことができた。
関連論文リスト
- A Unified Model for Compressed Sensing MRI Across Undersampling Patterns [69.19631302047569]
ディープニューラルネットワークは、アンダーサンプル計測から高忠実度画像を再構成する大きな可能性を示している。
我々のモデルは、離散化に依存しないアーキテクチャであるニューラル演算子に基づいている。
我々の推論速度は拡散法よりも1,400倍速い。
論文 参考訳(メタデータ) (2024-10-05T20:03:57Z) - Exploring Multi-view Pixel Contrast for General and Robust Image Forgery Localization [4.8454936010479335]
本稿では,画像フォージェリーローカライゼーションのための多視点Pixel-wise Contrastive Algorithm (MPC)を提案する。
具体的には、まず、教師付きコントラスト損失を伴うバックボーンネットワークを事前訓練する。
次に、クロスエントロピー損失を用いてローカライゼーションヘッドを微調整し、ピクセルローカライザを改良する。
論文 参考訳(メタデータ) (2024-06-19T13:51:52Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Memory Efficient Patch-based Training for INR-based GANs [13.19626131847784]
既存のアプローチの訓練には、画像解像度に比例した計算コストが要求される。
我々は、INRベースのGANを柔軟な計算コストでトレーニングできる、新しいスケーラブルなアプローチであるマルチステージパッチベースのトレーニングを提案する。
具体的には、パッチを用いて画像の局所的な詳細を学習し、グローバルな構造情報を学習することを可能にする。
論文 参考訳(メタデータ) (2022-07-04T13:28:53Z) - Class Balanced PixelNet for Neurological Image Segmentation [20.56747443955369]
画素レベルの畳み込みニューラルネットワーク(CNN)を用いた自動脳腫瘍分割法(PixelNetなど)を提案する。
提案モデルは脳腫瘍と虚血性脳梗塞のセグメンテーションデータセットにおいて有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-23T10:57:54Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - BP-DIP: A Backprojection based Deep Image Prior [49.375539602228415]
画像復元手法として, (i)Deep Image Prior (DIP) と (ii) バックプロジェクション (BP) の2つの手法を提案する。
提案手法はBP-DIP(BP-DIP)と呼ばれ,高いPSNR値とより優れた推論実行時間を持つ通常のDIPよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-11T17:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。