論文の概要: Real-time Image Enhancer via Learnable Spatial-aware 3D Lookup Tables
- arxiv url: http://arxiv.org/abs/2108.08697v1
- Date: Thu, 19 Aug 2021 14:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:19:19.758250
- Title: Real-time Image Enhancer via Learnable Spatial-aware 3D Lookup Tables
- Title(参考訳): 学習可能な空間認識型3Dルックアップテーブルによるリアルタイム画像強調
- Authors: Tao Wang, Yong Li, Jingyang Peng, Yipeng Ma, Xian Wang, Fenglong Song,
Youliang Yan
- Abstract要約: 学習可能な空間認識型3次元ルックアップテーブル(LUT)による新しいリアルタイム画像強調器を提案する。
空間認識型3D LUTを学習し、上記の重みに応じてエンドツーエンドに融合する。
我々のモデルは、主観的かつ客観的に、公開データセット上でSOTA画像強調法より優れている。
- 参考スコア(独自算出の注目度): 12.4260963890153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning-based image enhancement algorithms achieved
state-of-the-art (SOTA) performance on several publicly available datasets.
However, most existing methods fail to meet practical requirements either for
visual perception or for computation efficiency, especially for high-resolution
images. In this paper, we propose a novel real-time image enhancer via
learnable spatial-aware 3-dimentional lookup tables(3D LUTs), which well
considers global scenario and local spatial information. Specifically, we
introduce a light weight two-head weight predictor that has two outputs. One is
a 1D weight vector used for image-level scenario adaptation, the other is a 3D
weight map aimed for pixel-wise category fusion. We learn the spatial-aware 3D
LUTs and fuse them according to the aforementioned weights in an end-to-end
manner. The fused LUT is then used to transform the source image into the
target tone in an efficient way. Extensive results show that our model
outperforms SOTA image enhancement methods on public datasets both subjectively
and objectively, and that our model only takes about 4ms to process a 4K
resolution image on one NVIDIA V100 GPU.
- Abstract(参考訳): 近年、ディープラーニングに基づく画像強調アルゴリズムは、いくつかの公開データセットで最先端(SOTA)のパフォーマンスを達成した。
しかし、既存の手法の多くは、視覚知覚や計算効率、特に高解像度画像の実用要件を満たしていない。
本稿では,グローバルシナリオと局所空間情報を考慮した学習可能な空間認識型3次元ルックアップテーブル(3d luts)を用いた,新しいリアルタイム画像エンハンサーを提案する。
具体的には、2つの出力を持つ軽量2頭重量予測器を提案する。
1つは画像レベルのシナリオ適応に使用される1D重みベクトルであり、もう1つは画素単位のカテゴリ融合を目的とした3D重みマップである。
空間認識型3D LUTを学習し、上記の重みに応じてエンドツーエンドに融合する。
次に、融合したLUTを使用して、ソースイメージを効率よくターゲットトーンに変換する。
以上の結果から,我々のモデルは,主観的かつ客観的にSOTA画像強調法より優れており,NVIDIA V100 GPUで4K解像度画像を処理するのに約4ミリ秒しかかからないことがわかった。
関連論文リスト
- FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。
このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。
本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-13T01:25:05Z) - OpenDlign: Open-World Point Cloud Understanding with Depth-Aligned Images [17.344430840048094]
マルチモーダルアライメントのための奥行き整合画像を用いたオープンワールド3DモデルOpenDlignを提案する。
OpenDlignは、600万のパラメータを微調整するだけで、多様な3Dタスクで高いゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-25T11:53:36Z) - Compress3D: a Compressed Latent Space for 3D Generation from a Single Image [27.53099431097921]
トリプレーンオートエンコーダは3次元モデルをコンパクトな3次元ラテント空間に符号化し、3次元幾何情報とテクスチャ情報の両方を圧縮する。
本稿では,低解像度の潜在表現を用いて高解像度の3D特徴量から特徴を問合せする3D対応のクロスアテンション機構を提案する。
われわれのアプローチでは、1つのA100 GPU上で7秒で高品質な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2024-03-20T11:51:04Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Learning Image-adaptive 3D Lookup Tables for High Performance Photo
Enhancement in Real-time [33.93249921871407]
本稿では,画像適応型3次元ルックアップテーブル(3D LUT)を学習し,高速でロバストな画像強調を実現する。
アノテーション付きデータからペアワイドやアンペアラーニングを用いて3D LUTを学習する。
我々は、複数のベース3D LUTと小さな畳み込みニューラルネットワーク(CNN)をエンドツーエンドで同時に学習する。
論文 参考訳(メタデータ) (2020-09-30T06:34:57Z) - PerMO: Perceiving More at Once from a Single Image for Autonomous
Driving [76.35684439949094]
単一画像から完全テクスチャ化された車両の3次元モデルを検出し,セグメント化し,再構成する新しい手法を提案する。
私たちのアプローチは、ディープラーニングの強みと従来のテクニックの優雅さを組み合わせています。
我々はこれらのアルゴリズムを自律運転システムに統合した。
論文 参考訳(メタデータ) (2020-07-16T05:02:45Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。