Fugu-MT 論文翻訳(概要): LoFi: Neural Local Fields for Scalable Image Reconstruction

論文の概要: LoFi: Neural Local Fields for Scalable Image Reconstruction

arxiv url: http://arxiv.org/abs/2411.04995v2
Date: Sat, 21 Dec 2024 12:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 17:32:08.661033
Title: LoFi: Neural Local Fields for Scalable Image Reconstruction
Title（参考訳）: LoFi: スケーラブルな画像再構成のためのニューラルネットワーク
Authors: AmirEhsan Khorashadizadeh, Tobías I. Liaudat, Tianlin Liu, Jason D. McEwen, Ivan Dokmanić,
Abstract要約: LoFi(Local Field)と呼ばれる逆問題の画像化のための座標ベースのフレームワークを提案する。 LoFiは、各座標における局所情報を多層パーセプトロン(MLP)によって別々に処理し、その特定の座標でオブジェクトを復元する。 LoFiは、画像解像度とほぼ独立にメモリ使用量を持つアウト・オブ・ディストリビューションデータへの優れた一般化を実現する。
参考スコア（独自算出の注目度）: 11.544632963705858
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural fields or implicit neural representations (INRs) have attracted significant attention in computer vision and imaging due to their efficient coordinate-based representation of images and 3D volumes. In this work, we introduce a coordinate-based framework for solving imaging inverse problems, termed LoFi (Local Field). Unlike conventional methods for image reconstruction, LoFi processes local information at each coordinate separately by multi-layer perceptrons (MLPs), recovering the object at that specific coordinate. Similar to INRs, LoFi can recover images at any continuous coordinate, enabling image reconstruction at multiple resolutions. With comparable or better performance than standard deep learning models like convolutional neural networks (CNNs) and vision transformers (ViTs), LoFi achieves excellent generalization to out-of-distribution data with memory usage almost independent of image resolution. Remarkably, training on 1024x1024 images requires less than 200MB of memory -- much below standard CNNs and ViTs. Additionally, LoFi's local design allows it to train on extremely small datasets with 10 samples or fewer, without overfitting and without the need for explicit regularization or early stopping.
Abstract（参考訳）: ニューラルネットワークや暗黙の神経表現(INR)は、画像と3Dボリュームの効率的な座標に基づく表現のため、コンピュータビジョンとイメージングに大きな注目を集めている。そこで本研究では,LoFi(Local Field)と呼ばれる逆問題の画像解析のための座標ベースのフレームワークを提案する。従来の画像再構成法とは異なり、LoFiは各座標の局所情報を多層パーセプトロン(MLP)によって別々に処理し、その座標でオブジェクトを復元する。 INRと同様に、LoFiは任意の連続座標で画像を復元し、複数の解像度で画像再構成を可能にする。畳み込みニューラルネットワーク(CNN)やビジョントランスフォーマー(ViT)といった標準的なディープラーニングモデルと同等か、あるいは同等のパフォーマンスで、LoFiは、画像解像度とは独立に、メモリ使用量によるアウト・オブ・ディストリビューションデータへの優れた一般化を実現している。 1024x1024イメージのトレーニングには200MB未満のメモリが必要です。さらにLoFiのローカル設計では、10サンプル以下の極めて小さなデータセットをオーバーフィットすることなく、明示的な正規化や早期停止を必要とせずにトレーニングすることができる。

関連論文リスト

Efficient Visual State Space Model for Image Deblurring [99.54894198086852]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。提案したEVSSMは、ベンチマークデータセットや実世界の画像に対する最先端の手法に対して好意的に機能する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
GLIMPSE: Generalized Local Imaging with MLPs [10.657105348034753]
深層学習は、断層撮影における芸術の事実上の状態である。一般的なアプローチは、単純な反転の結果を畳み込みニューラルネットワーク(CNN)に供給し、再構成を計算することである。計算トモグラフィーのための局所処理ニューラルネットワークであるGLIMPSEを導入し,画素近傍の計測値のみを供給することによって画素値を再構成する。
論文参考訳（メタデータ） (2024-01-01T17:15:42Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
FocDepthFormer: Transformer with latent LSTM for Depth Estimation from Focal Stack [11.433602615992516]
本稿では,トランスフォーマーをLSTMモジュールとCNNデコーダと統合した新しいトランスフォーマーネットワークFocDepthFormerを提案する。 LSTMを組み込むことで、FocDepthFormerは大規模な単分子RGB深さ推定データセットで事前トレーニングすることができる。我々のモデルは、複数の評価指標で最先端のアプローチより優れています。
論文参考訳（メタデータ） (2023-10-17T11:53:32Z)
Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。 CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。 DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文参考訳（メタデータ） (2023-10-11T12:46:11Z)
Disruptive Autoencoders: Leveraging Low-level features for 3D Medical Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-07-31T17:59:42Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Image Reconstruction from Events. Why learn it? [11.773972029187433]
動き推定の連立問題への取り組みが,線形逆問題としてイベントベース画像再構成のモデル化につながることを示す。そこで本稿では,古典的・学習的な画像先行情報を用いて,その問題を解決し,再構成画像からアーティファクトを除去する手法を提案する。
論文参考訳（メタデータ） (2021-12-12T14:01:09Z)
PERF: Performant, Explicit Radiance Fields [1.933681537640272]
放射場に基づく画像に基づく3次元再構成手法を提案する。体積再構成の問題は非線形最小二乗問題として定式化され、ニューラルネットワークを使わずに明示的に解かれる。
論文参考訳（メタデータ） (2021-12-10T15:29:00Z)
Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-18T18:59:10Z)
ACORN: Adaptive Coordinate Networks for Neural Scene Representation [40.04760307540698]
現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
論文参考訳（メタデータ） (2021-05-06T16:21:38Z)
Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。 MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文参考訳（メタデータ） (2021-02-04T18:57:07Z)
High Quality Remote Sensing Image Super-Resolution Using Deep Memory Connected Network [21.977093907114217]
単一画像の超解像は、ターゲット検出や画像分類といった多くの用途において重要である。本稿では,畳み込みニューラルネットワークによる高画質超解像画像の再構成手法として,DeepMemory Connected Network (DMCN)を提案する。
論文参考訳（メタデータ） (2020-10-01T15:06:02Z)
Joint Frequency and Image Space Learning for MRI Reconstruction and Analysis [7.821429746599738]
本稿では、周波数空間データから再構成するための汎用的なビルディングブロックとして、周波数と画像の特徴表現を明示的に組み合わせたニューラルネットワーク層が利用できることを示す。提案した共同学習方式により、周波数空間に固有のアーティファクトの補正と画像空間表現の操作を両立させ、ネットワークのすべての層でコヒーレントな画像構造を再構築することができる。
論文参考訳（メタデータ） (2020-07-02T23:54:46Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。