論文の概要: LoFi: Neural Local Fields for Scalable Image Reconstruction
- arxiv url: http://arxiv.org/abs/2411.04995v2
- Date: Sat, 21 Dec 2024 12:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:22.695617
- Title: LoFi: Neural Local Fields for Scalable Image Reconstruction
- Title(参考訳): LoFi: スケーラブルな画像再構成のためのニューラルネットワーク
- Authors: AmirEhsan Khorashadizadeh, Tobías I. Liaudat, Tianlin Liu, Jason D. McEwen, Ivan Dokmanić,
- Abstract要約: LoFi(Local Field)と呼ばれる逆問題の画像化のための座標ベースのフレームワークを提案する。
LoFiは、各座標における局所情報を多層パーセプトロン(MLP)によって別々に処理し、その特定の座標でオブジェクトを復元する。
LoFiは、画像解像度とほぼ独立にメモリ使用量を持つアウト・オブ・ディストリビューションデータへの優れた一般化を実現する。
- 参考スコア(独自算出の注目度): 11.544632963705858
- License:
- Abstract: Neural fields or implicit neural representations (INRs) have attracted significant attention in computer vision and imaging due to their efficient coordinate-based representation of images and 3D volumes. In this work, we introduce a coordinate-based framework for solving imaging inverse problems, termed LoFi (Local Field). Unlike conventional methods for image reconstruction, LoFi processes local information at each coordinate separately by multi-layer perceptrons (MLPs), recovering the object at that specific coordinate. Similar to INRs, LoFi can recover images at any continuous coordinate, enabling image reconstruction at multiple resolutions. With comparable or better performance than standard deep learning models like convolutional neural networks (CNNs) and vision transformers (ViTs), LoFi achieves excellent generalization to out-of-distribution data with memory usage almost independent of image resolution. Remarkably, training on 1024x1024 images requires less than 200MB of memory -- much below standard CNNs and ViTs. Additionally, LoFi's local design allows it to train on extremely small datasets with 10 samples or fewer, without overfitting and without the need for explicit regularization or early stopping.
- Abstract(参考訳): ニューラルネットワークや暗黙の神経表現(INR)は、画像と3Dボリュームの効率的な座標に基づく表現のため、コンピュータビジョンとイメージングに大きな注目を集めている。
そこで本研究では,LoFi(Local Field)と呼ばれる逆問題の画像解析のための座標ベースのフレームワークを提案する。
従来の画像再構成法とは異なり、LoFiは各座標の局所情報を多層パーセプトロン(MLP)によって別々に処理し、その座標でオブジェクトを復元する。
INRと同様に、LoFiは任意の連続座標で画像を復元し、複数の解像度で画像再構成を可能にする。
畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった標準的なディープラーニングモデルと同等か、あるいは同等のパフォーマンスで、LoFiは、画像解像度とは独立に、メモリ使用量によるアウト・オブ・ディストリビューションデータへの優れた一般化を実現している。
1024x1024イメージのトレーニングには200MB未満のメモリが必要です。
さらにLoFiのローカル設計では、10サンプル以下の極めて小さなデータセットをオーバーフィットすることなく、明示的な正規化や早期停止を必要とせずにトレーニングすることができる。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Image Reconstruction from Events. Why learn it? [11.773972029187433]
動き推定の連立問題への取り組みが,線形逆問題としてイベントベース画像再構成のモデル化につながることを示す。
そこで本稿では,古典的・学習的な画像先行情報を用いて,その問題を解決し,再構成画像からアーティファクトを除去する手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T14:01:09Z) - PERF: Performant, Explicit Radiance Fields [1.933681537640272]
放射場に基づく画像に基づく3次元再構成手法を提案する。
体積再構成の問題は非線形最小二乗問題として定式化され、ニューラルネットワークを使わずに明示的に解かれる。
論文 参考訳(メタデータ) (2021-12-10T15:29:00Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Joint Frequency and Image Space Learning for MRI Reconstruction and
Analysis [7.821429746599738]
本稿では、周波数空間データから再構成するための汎用的なビルディングブロックとして、周波数と画像の特徴表現を明示的に組み合わせたニューラルネットワーク層が利用できることを示す。
提案した共同学習方式により、周波数空間に固有のアーティファクトの補正と画像空間表現の操作を両立させ、ネットワークのすべての層でコヒーレントな画像構造を再構築することができる。
論文 参考訳(メタデータ) (2020-07-02T23:54:46Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。