論文の概要: Learning Pixel-adaptive Multi-layer Perceptrons for Real-time Image Enhancement
- arxiv url: http://arxiv.org/abs/2507.12135v1
- Date: Wed, 16 Jul 2025 11:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.366769
- Title: Learning Pixel-adaptive Multi-layer Perceptrons for Real-time Image Enhancement
- Title(参考訳): リアルタイム画像強調のための画素適応型多層パーセプトロンの学習
- Authors: Junyu Lou, Xiaorui Zhao, Kexuan Shi, Shuhang Gu,
- Abstract要約: 深層学習に基づく双方向グリッド処理が,画像強調のための有望なソリューションとして登場した。
既存のアプローチは線形アフィン変換に限られており、複雑な色関係をモデル化する能力を妨げる。
本稿では,これらの課題を解決するために,バイラテラルグリッドベースのPixel Multi-layer Perceptron (BPAM) フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.730439731479247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based bilateral grid processing has emerged as a promising solution for image enhancement, inherently encoding spatial and intensity information while enabling efficient full-resolution processing through slicing operations. However, existing approaches are limited to linear affine transformations, hindering their ability to model complex color relationships. Meanwhile, while multi-layer perceptrons (MLPs) excel at non-linear mappings, traditional MLP-based methods employ globally shared parameters, which is hard to deal with localized variations. To overcome these dual challenges, we propose a Bilateral Grid-based Pixel-Adaptive Multi-layer Perceptron (BPAM) framework. Our approach synergizes the spatial modeling of bilateral grids with the non-linear capabilities of MLPs. Specifically, we generate bilateral grids containing MLP parameters, where each pixel dynamically retrieves its unique transformation parameters and obtain a distinct MLP for color mapping based on spatial coordinates and intensity values. In addition, we propose a novel grid decomposition strategy that categorizes MLP parameters into distinct types stored in separate subgrids. Multi-channel guidance maps are used to extract category-specific parameters from corresponding subgrids, ensuring effective utilization of color information during slicing while guiding precise parameter generation. Extensive experiments on public datasets demonstrate that our method outperforms state-of-the-art methods in performance while maintaining real-time processing capabilities.
- Abstract(参考訳): 深層学習に基づく双方向グリッド処理は、スライシング操作による効率的なフルレゾリューション処理を実現しつつ、本質的に空間的・強度的な情報を符号化する、画像強調のための有望なソリューションとして登場した。
しかし、既存のアプローチは線形アフィン変換に限られており、複雑な色関係をモデル化する能力を妨げる。
一方、MLP(Multi-layer perceptrons)は非線形マッピングにおいて優れているが、従来のMLPベースの手法ではグローバルな共有パラメータが用いられており、局所的な変動を扱うのが困難である。
これら2つの課題を克服するために,両面格子を用いたPixel-Adaptive Multi-layer Perceptron (BPAM) フレームワークを提案する。
提案手法は, 両側格子の空間的モデリングと, MLPの非線形機能との相乗効果を示す。
具体的には、各画素が独自の変換パラメータを動的に取得し、空間座標と強度値に基づいて色マッピングのための異なるMDPを得る。
さらに,MLPパラメータを個別のサブグリッドに格納した異なるタイプに分類する新しいグリッド分解手法を提案する。
マルチチャネル誘導マップは、対応するサブグリッドからカテゴリ固有のパラメータを抽出し、正確なパラメータ生成を誘導しながらスライシング中の色情報の有効利用を保証する。
公開データセットに対する大規模な実験により、我々の手法はリアルタイム処理能力を維持しながら、パフォーマンスにおいて最先端の手法よりも優れていることが示された。
関連論文リスト
- Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。
これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。
本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文 参考訳(メタデータ) (2025-04-01T14:36:45Z) - Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかを模倣するバイオインスパイアネットワークである。
スパイキングトランスフォーマーにおける相対的位置符号化(RPE)を近似するためのいくつかの戦略を導入する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - PARF-Net: integrating pixel-wise adaptive receptive fields into hybrid Transformer-CNN network for medical image segmentation [5.896243816988129]
医用画像分割のためのハイブリッドネットワークに,Pixel-wise Adaptive Receptive Fields (Conv-PARF) の畳み込みを統合する新しい手法を開発した。
提案手法は,データセット上のDiceの平均値が84.27%に達し,既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-01-06T09:48:35Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Learning Invariant Inter-pixel Correlations for Superpixel Generation [12.605604620139497]
学習可能な特徴は、制約付き判別能力を示し、不満足なピクセルグループ化性能をもたらす。
本稿では,不変画素間相関と統計特性を選択的に分離するContentangle Superpixelアルゴリズムを提案する。
4つのベンチマークデータセットの実験結果は、既存の最先端手法に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-28T09:46:56Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - ReLU Fields: The Little Non-linearity That Could [62.228229880658404]
我々は,高忠実度結果の保持を可能にするグリッドベース表現に対する最小の変更点について検討する。
このようなアプローチが最先端技術と競合することを示します。
論文 参考訳(メタデータ) (2022-05-22T13:42:31Z) - Hybrid Mesh-neural Representation for 3D Transparent Object
Reconstruction [30.66452291775852]
自然光条件下で手持ちの撮像画像を用いて透明物体の3次元形状を復元する新しい手法を提案する。
明示的なメッシュとハイブリッド表現であるマルチレイヤパーセプトロン(MLP)ネットワークの利点を組み合わせて、最近のコントリビューションで使用されるキャプチャを簡素化する。
論文 参考訳(メタデータ) (2022-03-23T17:58:56Z) - Lightweight Convolutional Neural Networks By Hypercomplex
Parameterization [10.420215908252425]
超複素畳み込み層のパラメータ化を定義し、軽量で効率的な大規模畳み込みモデルを開発する。
提案手法は,データから直接,畳み込みルールとフィルタ組織を把握している。
様々な画像データセットとオーディオデータセットで実験を行うことにより、このアプローチの複数のドメインに対する汎用性を実証する。
論文 参考訳(メタデータ) (2021-10-08T14:57:19Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z) - Multi-Margin based Decorrelation Learning for Heterogeneous Face
Recognition [90.26023388850771]
本稿では,超球面空間におけるデコリレーション表現を抽出するディープニューラルネットワーク手法を提案する。
提案するフレームワークは,不均一表現ネットワークとデコリレーション表現学習の2つのコンポーネントに分けることができる。
2つの難解な異種顔データベースに対する実験結果から,本手法は検証タスクと認識タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-25T07:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。