Fugu-MT 論文翻訳(概要): LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation

論文の概要: LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation

arxiv url: http://arxiv.org/abs/2411.04995v1
Date: Thu, 07 Nov 2024 18:58:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.517862
Title: LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation
Title（参考訳）: LoFi: 暗黙のニューラル表現を用いたスケーラブルな局所画像再構成
Authors: AmirEhsan Khorashadizadeh, Tobías I. Liaudat, Tianlin Liu, Jason D. McEwen, Ivan Dokmanić,
Abstract要約: 画像逆問題(LoFi)を解決するための座標ベースの局所処理フレームワークを提案する。従来の画像再構成法とは異なり、LoFiは各座標でローカル情報を処理している。 LoFiは任意の連続座標で画像を復元することができ、複数の解像度で画像再構成が可能である。
参考スコア（独自算出の注目度）: 11.544632963705858
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural fields or implicit neural representations (INRs) have attracted significant attention in machine learning and signal processing due to their efficient continuous representation of images and 3D volumes. In this work, we build on INRs and introduce a coordinate-based local processing framework for solving imaging inverse problems, termed LoFi (Local Field). Unlike conventional methods for image reconstruction, LoFi processes local information at each coordinate \textit{separately} by multi-layer perceptrons (MLPs), recovering the object at that specific coordinate. Similar to INRs, LoFi can recover images at any continuous coordinate, enabling image reconstruction at multiple resolutions. With comparable or better performance than standard CNNs for image reconstruction, LoFi achieves excellent generalization to out-of-distribution data and memory usage almost independent of image resolution. Remarkably, training on $1024 \times 1024$ images requires just 3GB of memory -- over 20 times less than the memory typically needed by standard CNNs. Additionally, LoFi's local design allows it to train on extremely small datasets with less than 10 samples, without overfitting or the need for regularization or early stopping. Finally, we use LoFi as a denoising prior in a plug-and-play framework for solving general inverse problems to benefit from its continuous image representation and strong generalization. Although trained on low-resolution images, LoFi can be used as a low-dimensional prior to solve inverse problems at any resolution. We validate our framework across a variety of imaging modalities, from low-dose computed tomography to radio interferometric imaging.
Abstract（参考訳）: ニューラルネットワークや暗黙の神経表現(INR)は、画像や3Dボリュームの効率的な連続表現のために、機械学習や信号処理に大きな注目を集めている。本研究では,INRを基盤として,画像逆問題(LoFi(Local Field))を解決するための座標ベースの局所処理フレームワークを提案する。従来の画像再構成法とは異なり、LoFiは各座標のローカル情報を多層パーセプトロン(MLP)によって処理し、その特定の座標でオブジェクトを復元する。 INRと同様に、LoFiは任意の連続座標で画像を復元し、複数の解像度で画像再構成を可能にする。画像再構成のための標準的なCNNと同等あるいは同等の性能を持つため、LoFiは画像解像度とは独立に、アウト・オブ・ディストリビューションデータやメモリ使用量に優れた一般化を実現している。 1024 \times 1024$イメージのトレーニングには3GBのメモリが必要だ。さらにLoFiのローカル設計では、オーバーフィットや正規化や早期停止の必要なく、10サンプル未満の極めて小さなデータセットでトレーニングすることができる。最後に,LloFiをプラグイン・アンド・プレイ・フレームワークに先立ってデノベーションとして使用し,その連続画像表現と強力な一般化の恩恵を受けるために,一般的な逆問題を解決する。低解像度の画像で訓練されているにもかかわらず、LoFiは任意の解像度で逆問題の解決に先立って低次元として使用できる。我々は,低線量CTからラジオ干渉画像まで,様々な画像モダリティの枠組みを検証した。

関連論文リスト

Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
GLIMPSE: Generalized Local Imaging with MLPs [10.657105348034753]
深層学習は、断層撮影における芸術の事実上の状態である。一般的なアプローチは、単純な反転の結果を畳み込みニューラルネットワーク(CNN)に供給し、再構成を計算することである。計算トモグラフィーのための局所処理ニューラルネットワークであるGLIMPSEを導入し,画素近傍の計測値のみを供給することによって画素値を再構成する。
論文参考訳（メタデータ） (2024-01-01T17:15:42Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。 LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文参考訳（メタデータ） (2023-10-17T11:53:32Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Image Reconstruction from Events. Why learn it? [11.773972029187433]
動き推定の連立問題への取り組みが,線形逆問題としてイベントベース画像再構成のモデル化につながることを示す。そこで本稿では,古典的・学習的な画像先行情報を用いて,その問題を解決し,再構成画像からアーティファクトを除去する手法を提案する。
論文参考訳（メタデータ） (2021-12-12T14:01:09Z)
PERF: Performant, Explicit Radiance Fields [1.933681537640272]
放射場に基づく画像に基づく3次元再構成手法を提案する。体積再構成の問題は非線形最小二乗問題として定式化され、ニューラルネットワークを使わずに明示的に解かれる。
論文参考訳（メタデータ） (2021-12-10T15:29:00Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文参考訳（メタデータ） (2021-05-06T16:21:38Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)
High Quality Remote Sensing Image Super-Resolution Using Deep Memory Connected Network [21.977093907114217]
単一画像の超解像は、ターゲット検出や画像分類といった多くの用途において重要である。本稿では,畳み込みニューラルネットワークによる高画質超解像画像の再構成手法として,DeepMemory Connected Network (DMCN)を提案する。
論文参考訳（メタデータ） (2020-10-01T15:06:02Z)
Joint Frequency and Image Space Learning for MRI Reconstruction and Analysis [7.821429746599738]
本稿では、周波数空間データから再構成するための汎用的なビルディングブロックとして、周波数と画像の特徴表現を明示的に組み合わせたニューラルネットワーク層が利用できることを示す。提案した共同学習方式により、周波数空間に固有のアーティファクトの補正と画像空間表現の操作を両立させ、ネットワークのすべての層でコヒーレントな画像構造を再構築することができる。
論文参考訳（メタデータ） (2020-07-02T23:54:46Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。