論文の概要: LoFi: Neural Local Fields for Scalable Image Reconstruction
- arxiv url: http://arxiv.org/abs/2411.04995v2
- Date: Sat, 21 Dec 2024 12:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:22.695617
- Title: LoFi: Neural Local Fields for Scalable Image Reconstruction
- Title(参考訳): LoFi: スケーラブルな画像再構成のためのニューラルネットワーク
- Authors: AmirEhsan Khorashadizadeh, Tobías I. Liaudat, Tianlin Liu, Jason D. McEwen, Ivan Dokmanić,
- Abstract要約: LoFi(Local Field)と呼ばれる逆問題の画像化のための座標ベースのフレームワークを提案する。
LoFiは、各座標における局所情報を多層パーセプトロン(MLP)によって別々に処理し、その特定の座標でオブジェクトを復元する。
LoFiは、画像解像度とほぼ独立にメモリ使用量を持つアウト・オブ・ディストリビューションデータへの優れた一般化を実現する。
- 参考スコア(独自算出の注目度): 11.544632963705858
- License:
- Abstract: Neural fields or implicit neural representations (INRs) have attracted significant attention in computer vision and imaging due to their efficient coordinate-based representation of images and 3D volumes. In this work, we introduce a coordinate-based framework for solving imaging inverse problems, termed LoFi (Local Field). Unlike conventional methods for image reconstruction, LoFi processes local information at each coordinate separately by multi-layer perceptrons (MLPs), recovering the object at that specific coordinate. Similar to INRs, LoFi can recover images at any continuous coordinate, enabling image reconstruction at multiple resolutions. With comparable or better performance than standard deep learning models like convolutional neural networks (CNNs) and vision transformers (ViTs), LoFi achieves excellent generalization to out-of-distribution data with memory usage almost independent of image resolution. Remarkably, training on 1024x1024 images requires less than 200MB of memory -- much below standard CNNs and ViTs. Additionally, LoFi's local design allows it to train on extremely small datasets with 10 samples or fewer, without overfitting and without the need for explicit regularization or early stopping.
- Abstract(参考訳): ニューラルネットワークや暗黙の神経表現(INR)は、画像と3Dボリュームの効率的な座標に基づく表現のため、コンピュータビジョンとイメージングに大きな注目を集めている。
そこで本研究では,LoFi(Local Field)と呼ばれる逆問題の画像解析のための座標ベースのフレームワークを提案する。
従来の画像再構成法とは異なり、LoFiは各座標の局所情報を多層パーセプトロン(MLP)によって別々に処理し、その座標でオブジェクトを復元する。
INRと同様に、LoFiは任意の連続座標で画像を復元し、複数の解像度で画像再構成を可能にする。
畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった標準的なディープラーニングモデルと同等か、あるいは同等のパフォーマンスで、LoFiは、画像解像度とは独立に、メモリ使用量によるアウト・オブ・ディストリビューションデータへの優れた一般化を実現している。
1024x1024イメージのトレーニングには200MB未満のメモリが必要です。
さらにLoFiのローカル設計では、10サンプル以下の極めて小さなデータセットをオーバーフィットすることなく、明示的な正規化や早期停止を必要とせずにトレーニングすることができる。
関連論文リスト
- GLIMPSE: Generalized Local Imaging with MLPs [10.657105348034753]
深層学習は、断層撮影における芸術の事実上の状態である。
一般的なアプローチは、単純な反転の結果を畳み込みニューラルネットワーク(CNN)に供給し、再構成を計算することである。
計算トモグラフィーのための局所処理ニューラルネットワークであるGLIMPSEを導入し,画素近傍の計測値のみを供給することによって画素値を再構成する。
論文 参考訳(メタデータ) (2024-01-01T17:15:42Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。
LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。
我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文 参考訳(メタデータ) (2023-10-17T11:53:32Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文 参考訳(メタデータ) (2021-05-06T16:21:38Z) - High Quality Remote Sensing Image Super-Resolution Using Deep Memory
Connected Network [21.977093907114217]
単一画像の超解像は、ターゲット検出や画像分類といった多くの用途において重要である。
本稿では,畳み込みニューラルネットワークによる高画質超解像画像の再構成手法として,DeepMemory Connected Network (DMCN)を提案する。
論文 参考訳(メタデータ) (2020-10-01T15:06:02Z) - Joint Frequency and Image Space Learning for MRI Reconstruction and
Analysis [7.821429746599738]
本稿では、周波数空間データから再構成するための汎用的なビルディングブロックとして、周波数と画像の特徴表現を明示的に組み合わせたニューラルネットワーク層が利用できることを示す。
提案した共同学習方式により、周波数空間に固有のアーティファクトの補正と画像空間表現の操作を両立させ、ネットワークのすべての層でコヒーレントな画像構造を再構築することができる。
論文 参考訳(メタデータ) (2020-07-02T23:54:46Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。