論文の概要: VQT-Light:Lightweight HDR Illumination Map Prediction with Richer Texture.pdf
- arxiv url: http://arxiv.org/abs/2509.12556v1
- Date: Tue, 16 Sep 2025 01:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.833232
- Title: VQT-Light:Lightweight HDR Illumination Map Prediction with Richer Texture.pdf
- Title(参考訳): VQT-Light:よりリッチなテクスチャを用いた軽量HDR照明マップ予測
- Authors: Kunliang Xie,
- Abstract要約: 本稿では,VQVAE と ViT アーキテクチャに基づく新しいフレームワーク (VQT-Light) を提案する。
VQT-Lightには2つのモジュールがある。
我々のモデルは、軽量で高速に保ちながら、より豊かなテクスチャと忠実度で光マップを予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate lighting estimation is a significant yet challenging task in computer vision and graphics. However, existing methods either struggle to restore detailed textures of illumination map, or face challenges in run-ning speed and texture fidelity. To tackle this problem, we propose a novel framework (VQT-Light) based on VQVAE and ViT architecture. VQT-Light includes two modules: feature extraction and lighting estima-tion. First, we take advantages of VQVAE to extract discrete features of illumination map rather than con-tinuous features to avoid "posterior collapse". Second, we capture global context and dependencies of in-put image through ViT rather than CNNs to improve the prediction of illumination outside the field of view. Combining the above two modules, we formulate the lighting estimation as a multiclass classification task, which plays a key role in our pipeline. As a result, our model predicts light map with richer texture and better fidelity while keeping lightweight and fast. VQT-Light achieves an inference speed of 40FPS and im-proves multiple evaluation metrics. Qualitative and quantitative experiments demonstrate that the proposed method realizes superior results compared to existing state-of-the-art methods.
- Abstract(参考訳): 正確な照明推定はコンピュータビジョンとグラフィックスにおいて重要な課題である。
しかし、既存の手法では、照明マップの詳細なテクスチャの復元に苦労するか、実行速度やテクスチャの忠実度に課題に直面している。
この問題に対処するために,VQVAE と ViT アーキテクチャに基づく新しいフレームワーク (VQT-Light) を提案する。
VQT-Lightには2つのモジュールがある。
まず、VQVAEの利点として、連続的な特徴よりも照明マップの個別の特徴を抽出し、「後部崩壊」を避けることが挙げられる。
第2に、視野外の照明の予測を改善するために、CNNではなくViTを介してインプット画像のグローバルコンテキストと依存関係をキャプチャする。
上記の2つのモジュールを組み合わせることで、照明推定を多クラス分類タスクとして定式化し、パイプラインにおいて重要な役割を担います。
その結果、よりリッチなテクスチャと忠実度を持つ光マップを、軽量で高速に保ちながら予測できることがわかった。
VQT-Lightは40FPSの推論速度を達成し、複数の評価指標を即効化する。
定性的かつ定量的な実験により,提案手法は既存の最先端手法と比較して優れた結果が得られることを示した。
関連論文リスト
- SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:38:56Z) - RISE-SDF: a Relightable Information-Shared Signed Distance Field for Glossy Object Inverse Rendering [26.988572852463815]
本稿では,新しいエンド・ツー・エンド・エンド・リライトブル・ニューラル・リバース・レンダリングシステムを提案する。
本アルゴリズムは,逆レンダリングとリライトにおける最先端性能を実現する。
実験により, 逆レンダリングおよびリライティングにおける最先端性能が得られた。
論文 参考訳(メタデータ) (2024-09-30T09:42:10Z) - Fast Context-Based Low-Light Image Enhancement via Neural Implicit Representations [6.113035634680655]
現在のディープラーニングベースの低照度画像強調手法は高解像度画像としばしば競合する。
我々は、未露出画像の2次元座標を照明成分にマッピングすることで、拡張過程を再定義する、CoLIEと呼ばれる新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-07-17T11:51:52Z) - A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale
Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。
既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。
MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-12-27T10:07:11Z) - TensoIR: Tensorial Inverse Rendering [51.57268311847087]
テンソルIRはテンソル分解とニューラルフィールドに基づく新しい逆レンダリング手法である。
TensoRFは、放射場モデリングのための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-04-24T21:39:13Z) - Retinexformer: One-stage Retinex-based Transformer for Low-light Image
Enhancement [96.09255345336639]
低照度画像の高精細化のために,原理化された1段Retinex-based Framework (ORF) を定式化する。
ORFはまず照明情報を推定し、低照度画像を照らす。
我々のアルゴリズムであるRetinexformerは13のベンチマークで最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-03-12T16:54:08Z) - Learning Deep Context-Sensitive Decomposition for Low-Light Image
Enhancement [58.72667941107544]
典型的なフレームワークは、照明と反射を同時に推定することであるが、特徴空間にカプセル化されたシーンレベルの文脈情報を無視する。
本研究では,空間スケールにおけるシーンレベルのコンテキスト依存を生かした,コンテキスト依存型分解ネットワークアーキテクチャを提案する。
チャネル数を減らして軽量なCSDNet(LiteCSDNet)を開発する。
論文 参考訳(メタデータ) (2021-12-09T06:25:30Z) - Physically Inspired Dense Fusion Networks for Relighting [45.66699760138863]
物理的洞察でニューラルネットワークを豊かにするモデルを提案する。
2つの異なる戦略により、新しい照明設定でリライト画像を生成します。
提案手法は,よく知られた忠実度指標と知覚的損失の点で,最先端手法を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-05-05T17:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。