論文の概要: PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images
- arxiv url: http://arxiv.org/abs/2402.12721v4
- Date: Thu, 14 Mar 2024 04:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:32:47.171179
- Title: PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images
- Title(参考訳): PAC-FNO:低品質画像認識のための並列構造化全成分フーリエニューラル演算子
- Authors: Jinsung Jeon, Hyundong Jin, Jonghyun Choi, Sanghyun Hong, Dongeun Lee, Kookjin Lee, Noseong Park,
- Abstract要約: 並列構造および全成分フーリエニューラル演算子(PAC-FNO)を用いた新しいニューラルネットワークモデルを提案する。
従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。
提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を最大77.1%向上し,推論時の画像の様々な種類の自然変化を示す。
- 参考スコア(独自算出の注目度): 38.773390121161924
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A standard practice in developing image recognition models is to train a model on a specific image resolution and then deploy it. However, in real-world inference, models often encounter images different from the training sets in resolution and/or subject to natural variations such as weather changes, noise types and compression artifacts. While traditional solutions involve training multiple models for different resolutions or input variations, these methods are computationally expensive and thus do not scale in practice. To this end, we propose a novel neural network model, parallel-structured and all-component Fourier neural operator (PAC-FNO), that addresses the problem. Unlike conventional feed-forward neural networks, PAC-FNO operates in the frequency domain, allowing it to handle images of varying resolutions within a single model. We also propose a two-stage algorithm for training PAC-FNO with a minimal modification to the original, downstream model. Moreover, the proposed PAC-FNO is ready to work with existing image recognition models. Extensively evaluating methods with seven image recognition benchmarks, we show that the proposed PAC-FNO improves the performance of existing baseline models on images with various resolutions by up to 77.1% and various types of natural variations in the images at inference.
- Abstract(参考訳): 画像認識モデルを開発する標準的なプラクティスは、特定の画像解像度でモデルをトレーニングし、デプロイすることです。
しかし、現実の推論では、モデルが解像度のトレーニングセットと異なるイメージに遭遇したり、天候の変化、ノイズタイプ、圧縮アーティファクトといった自然な変化に直面する場合が多い。
従来のソリューションでは、解像度や入力のバリエーションの異なる複数のモデルを訓練するが、これらの手法は計算コストが高く、実際にはスケールしない。
この目的のために,並列構造および全成分フーリエニューラル演算子 (PAC-FNO) を用いた新しいニューラルネットワークモデルを提案する。
従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。
また、元の下流モデルに最小限の修正を加えてPAC-FNOを訓練するための2段階のアルゴリズムを提案する。
さらに、提案したPAC-FNOは既存の画像認識モデルで動作する準備ができている。
7つの画像認識ベンチマークを用いた大規模評価手法により,提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を77.1%向上し,推論時の画像の様々な種類の自然変化を改善できることを示す。
関連論文リスト
- A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - Controlling Rate, Distortion, and Realism: Towards a Single Comprehensive Neural Image Compression Model [4.096453902709292]
異なるビットレートで画像を圧縮する可変レート生成NICモデルを提案する。
提案手法を取り入れることで,ビットレート,歪み,リアリズムを1つのモデルで調整することができる。
我々の手法は、最先端の単一レート NIC モデルの性能と一致するか、上回っている。
論文 参考訳(メタデータ) (2024-05-27T04:22:25Z) - FAS-UNet: A Novel FAS-driven Unet to Learn Variational Image
Segmentation [3.741136641573471]
本稿では,そのモデルとアルゴリズムを利用してマルチスケールの特徴を抽出する新しい変動モデルインフォームドネットワーク(FAS-Unet)を提案する。
提案するネットワークは,画像データと数理モデルを統合し,いくつかの畳み込みカーネルを学習して実装する。
実験結果から,提案するFAS-Unetは,定性的,定量的,モデル複雑度評価において,他の最先端手法と非常に競合することが示された。
論文 参考訳(メタデータ) (2022-10-27T04:15:16Z) - A training-free recursive multiresolution framework for diffeomorphic
deformable image registration [6.929709872589039]
変形可能な画像登録のための新しい微分型学習自由アプローチを提案する。
提案するアーキテクチャは設計上は単純で,各解像度で移動像を順次ワープし,最終的に固定像に整列する。
システム全体はエンドツーエンドで、スクラッチから各2つのイメージに最適化されている。
論文 参考訳(メタデータ) (2022-02-01T15:17:17Z) - Dynamic Proximal Unrolling Network for Compressive Sensing Imaging [29.00266254916676]
本稿では,DPUNetと呼ばれる動的近位アンローリングネットワークについて述べる。
具体的には、DPUNetは、勾配降下による埋め込み物理モデルと、学習された動的近位写像による画像のインポーティングの両方を活用できる。
実験結果から,提案したDPUNetは,サンプル比や雑音レベルの異なる複数のCSIモダリティを1つのモデルで効果的に処理できることがわかった。
論文 参考訳(メタデータ) (2021-07-23T03:04:44Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Deep Unfolding Network for Image Super-Resolution [159.50726840791697]
本稿では,学習に基づく手法とモデルに基づく手法の両方を活用する,エンドツーエンドのトレーニング可能なアンフォールディングネットワークを提案する。
提案するネットワークは, モデルベース手法の柔軟性を継承し, 一つのモデルを用いて, 異なるスケール要因に対する, 曖昧でノイズの多い画像の超解像化を行う。
論文 参考訳(メタデータ) (2020-03-23T17:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。