論文の概要: 4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters
- arxiv url: http://arxiv.org/abs/2311.08759v1
- Date: Wed, 15 Nov 2023 08:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 17:03:42.544253
- Title: 4K-Resolution Photo Exposure Correction at 125 FPS with ~8K Parameters
- Title(参考訳): 8kパラメーター125fpsでの4k解像度光露光補正
- Authors: Yijie Zhou, Chao Li, Jin Liang, Tianyi Xu, Xin Liu, Jun Xu
- Abstract要約: 本稿では,8Kパラメータしか持たない超軽量なマルチスケール線形変換(MSLT)ネットワークを提案する。
MSLTネットワークは4K解像度のsRGB画像をTitan GTX GPUで125 Frame-Per-Second (FPS)で処理することができる。
2つのベンチマークデータセットの実験は、写真露出補正の最先端技術に対するMSLTの効率を実証している。
- 参考スコア(独自算出の注目度): 9.410502389242815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The illumination of improperly exposed photographs has been widely corrected
using deep convolutional neural networks or Transformers. Despite with
promising performance, these methods usually suffer from large parameter
amounts and heavy computational FLOPs on high-resolution photographs. In this
paper, we propose extremely light-weight (with only ~8K parameters) Multi-Scale
Linear Transformation (MSLT) networks under the multi-layer perception
architecture, which can process 4K-resolution sRGB images at 125
Frame-Per-Second (FPS) by a Titan RTX GPU. Specifically, the proposed MSLT
networks first decompose an input image into high and low frequency layers by
Laplacian pyramid techniques, and then sequentially correct different layers by
pixel-adaptive linear transformation, which is implemented by efficient
bilateral grid learning or 1x1 convolutions. Experiments on two benchmark
datasets demonstrate the efficiency of our MSLTs against the state-of-the-arts
on photo exposure correction. Extensive ablation studies validate the
effectiveness of our contributions. The code is available at
https://github.com/Zhou-Yijie/MSLTNet.
- Abstract(参考訳): 不適切に露出した写真の照明は、深層畳み込みニューラルネットワークやトランスフォーマーを用いて広く修正されている。
有望な性能にもかかわらず、これらの手法は通常、高解像度写真上で大きなパラメータ量と重い計算FLOPに悩まされる。
本稿では,タイタンrtx gpuを用いて4k解像度のsrgb画像を125フレーム/秒(fps)で処理できる多層知覚アーキテクチャの下で,超軽量(約8kパラメータのみ)マルチスケール線形変換(mslt)ネットワークを提案する。
特に,提案するmsltネットワークは,まず入力画像をラプラシアンピラミッド技術により高周波数層と低周波数層に分解し,その後,効率的な双方向グリッド学習や1x1畳み込みによって実現される画素適応線形変換により,異なる層を順次補正する。
2つのベンチマークデータセットの実験は、写真露出補正の最先端技術に対するMSLTの効率を実証している。
広範なアブレーション研究は、我々の貢献の有効性を検証する。
コードはhttps://github.com/Zhou-Yijie/MSLTNetで公開されている。
関連論文リスト
- An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Reciprocal Attention Mixing Transformer for Lightweight Image Restoration [6.3159191692241095]
本稿では,RAMiT(Reciprocal Attention Mixing Transformer)という軽量画像復元ネットワークを提案する。
二次元(空間とチャネル)の自己アテンションを、異なる数のマルチヘッドと並行して使用する。
超高分解能、カラーデノイング、グレースケールデノナイジング、低照度向上、デラリニングなど、複数の軽量IRタスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-19T06:55:04Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Ultra-High-Definition Low-Light Image Enhancement: A Benchmark and
Transformer-Based Method [51.30748775681917]
低照度画像強調(LLIE)の課題を考察し,4K解像度と8K解像度の画像からなる大規模データベースを導入する。
我々は、系統的なベンチマーク研究を行い、現在のLLIEアルゴリズムと比較する。
第2のコントリビューションとして,変換器をベースとした低照度化手法であるLLFormerを紹介する。
論文 参考訳(メタデータ) (2022-12-22T09:05:07Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - CUF: Continuous Upsampling Filters [25.584630142930123]
本稿では,画像処理における最も重要な操作の一つとして,アップサンプリングについて考察する。
本稿では、アップサンプリングカーネルをニューラルネットワークとしてパラメータ化することを提案する。
このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。
論文 参考訳(メタデータ) (2022-10-13T12:45:51Z) - Progressively-connected Light Field Network for Efficient View Synthesis [69.29043048775802]
本稿では、複雑な前方シーンのビュー合成のためのプログレッシブ・コネクテッド・ライトフィールド・ネットワーク(ProLiF)を提案する。
ProLiFは4Dライトフィールドをエンコードし、画像やパッチレベルの損失に対するトレーニングステップで大量の光線をレンダリングすることができる。
論文 参考訳(メタデータ) (2022-07-10T13:47:20Z) - Single UHD Image Dehazing via Interpretable Pyramid Network [10.00144096602321]
現在、ほとんどのシングルイメージデハージングモデルは、単一のGPUで超高解像度(UHD)イメージをリアルタイムで実行することはできない。
テイラーの定理をラプラスのピラミッドパターンで無限近似する原理を導入し、4K画像をリアルタイムで処理できるモデルを構築する。
論文 参考訳(メタデータ) (2022-02-17T11:14:12Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - High-Resolution Photorealistic Image Translation in Real-Time: A
Laplacian Pyramid Translation Network [23.981019687483506]
閉形式ラプラシアピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。
この2つのタスクを同時に実行するために,ラプラシアンピラミッド翻訳ネットワーク(N)を提案する。
我々のモデルは高解像度の特徴写像を処理し、画像の詳細を忠実に保存することで消費される重い計算の大部分を回避している。
論文 参考訳(メタデータ) (2021-05-19T15:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。