論文の概要: LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing
- arxiv url: http://arxiv.org/abs/2605.11508v1
- Date: Tue, 12 May 2026 04:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.576404
- Title: LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing
- Title(参考訳): LiBrA-Net:Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing
- Authors: Yongcong Wang, Chengchao Shen, Guangwei Gao, Wei Wang, Pengwen Dai, Dianjie Lu, Guijuan Zhang, Zhuoran Zheng,
- Abstract要約: LiBrA-NetはUHDビデオデハージングの新しいベンチマークである。
UHV-4Kは、すべてのフレームに深度、透過度、光フローアノテーションを備えた最初の4Kビデオデハージングベンチマークである。
- 参考スコア(独自算出の注目度): 24.861880909272998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, there is a gap in the field of ultra-high-definition (UHD) video dehazing due to the lack of a benchmark for evaluation. Furthermore, existing video dehazing methods cannot run on consumer-grade GPUs when processing continuous UHD sequences of 3--5 frames at a time. In this paper, we address both issues with a new benchmark and an efficient method. Our key observation is that atmospheric dehazing reduces to a per-pixel affine transform governed by the low-frequency depth field, which can be compactly encoded in bilateral grids whose prediction cost is decoupled from the output resolution. Building on this, we propose LiBrA-Net, which factorizes the spatiotemporal affine field into a spatial--color and a temporal bilateral sub-grid predicted at a fixed low resolution, fuses their coefficients in the $\mathfrak{gl}(3)$ Lie algebra under group-theoretic regularization, maps the result to invertible GL(3) transforms via a Cayley parameterization, and restores high-frequency detail through a lightweight input-guided branch. We further release UHV-4K, the first paired 4K video dehazing benchmark with depth, transmission, and optical-flow annotations on every frame. Across UHV-4K, REVIDE, and HazeWorld, LiBrA-Net sets a new state of the art among compared video dehazing methods while running native 4K at 25 FPS on a single GPU with only 6.12 M parameters. Code and data are available at https://anonymous.4open.science/r/LiBrA-Net-42B8.
- Abstract(参考訳): 現在、評価のためのベンチマークが欠如しているため、超高精細ビデオデハージング(UHD)の分野にはギャップがある。
さらに,3~5フレームの連続UHDシーケンスを一度に処理する場合,既存のビデオデハージング方式はコンシューマグレードのGPUでは動作できない。
本稿では,新しいベンチマークと効率的な手法を用いて,両問題に対処する。
我々のキーとなる観察は、大気の脱ヘイジングは低周波深度場によって制御される1ピクセルあたりのアフィン変換に還元され、予測コストが出力分解能から切り離される両側格子にコンパクトに符号化されることである。
これに基づいて、時空間アフィン場を空間色に分解し、固定された低分解能で予測される時空間両側のサブグリッドに分解するLiBrA-Netを提案し、その係数を群理論正規化の下で$\mathfrak{gl}(3)$ Lie代数に融合し、ケイリーパラメータ化により可逆GL(3)変換に写像し、軽量入力誘導分岐を通じて高頻度の詳細を復元する。
さらにUHV-4Kもリリースしました。UHV-4Kは、深度、透過度、光フローアノテーションを備えた最初の4Kビデオデハージングベンチマークです。
UHV-4K、REVIDE、HazeWorld全体で、LiBrA-Netは6.12Mパラメータしか持たない単一のGPU上で、ネイティブ4Kを25FPSで実行しながら、比較ビデオのデハージング手法の中で新しい最先端を設定している。
コードとデータはhttps://anonymous.4open.science/r/LiBrA-Net-42B8で公開されている。
関連論文リスト
- UHD Low-Light Image Enhancement via Real-Time Enhancement Methods with Clifford Information Fusion [51.51707075741303]
幾何学的特徴融合に基づく新しいリアルタイムUHD低照度拡張ネットワークを提案する。
本手法は,1台のコンシューマグレードデバイス上での4K/8K画像に対するミリ秒レベルの推論を実現する。
論文 参考訳(メタデータ) (2026-04-10T13:47:04Z) - FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion [46.49480145234397]
本稿ではFrescoDiffusionについて紹介する。FrescoDiffusionは1つの画像からコヒーレントな大フォーマットI2V生成のためのトレーニング不要な手法である。
4K 生成では,タイルごとの雑音予測を計算し,この基準を拡散時間毎にフューズする。
VBench-I2Vデータセットと提案したフレスコI2Vデータセットの実験により,タイル付きベースラインに対するグローバルな一貫性と忠実度が改善された。
論文 参考訳(メタデータ) (2026-03-18T10:02:37Z) - PackUV: Packed Gaussian UV Maps for 4D Volumetric Video [11.013333481800474]
本稿では,すべてのガウス属性を構造化されたマルチスケールUVアトラスの列にマッピングする,新しい4次元ガウス表現であるPackUVを紹介する。
これまでで最大のマルチビュービデオデータセットであるPackUV-2Bは、50以上の同期カメラ、実質的な動き、100のシーケンスと2Bフレームにまたがる頻繁な非閉塞を特徴とする。
論文 参考訳(メタデータ) (2026-02-26T14:24:48Z) - UltraFlux: Data-Model Co-Design for High-quality Native 4K Text-to-Image Generation across Diverse Aspect Ratios [11.829523789114377]
我々は、MultiAspect-4K-1Mで4Kで訓練されたFluxベースのDiTであるUltraFluxを紹介する。
モデル側では、UltraFluxは4Kでのトレーニングウインドウ、周波数、AR対応の位置符号化のためにResonance 2D RoPEとYaRNを結合する。
4096年のAesthetic-EvalベンチマークとマルチAR 4K設定では、UltraFluxはフィデリティ、美学、アライメントのメトリクスで、強力なオープンソースベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-22T13:07:21Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Continuous Space-Time Video Super-Resolution with 3D Fourier Fields [62.270473766381976]
連続時空ビデオ超解像のための新しい定式化法を提案する。
モデリング関節は空間的および時間的超解像の両方を大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-09-30T14:34:02Z) - 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - 4K4D: Real-Time 4D View Synthesis at 4K Resolution [86.6582179227016]
本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに見ることを目的とする。
ハードウェア化をサポートし,前例のないレンダリング速度を実現する4Dポイントクラウド表現を提案する。
私たちの表現は、1080p解像度のDNAレンダリングデータセットで400 FPS、4090 GPUで4K解像度のENeRF-Outdoorデータセットで80 FPSでレンダリングできます。
論文 参考訳(メタデータ) (2023-10-17T17:57:38Z) - Single UHD Image Dehazing via Interpretable Pyramid Network [10.00144096602321]
現在、ほとんどのシングルイメージデハージングモデルは、単一のGPUで超高解像度(UHD)イメージをリアルタイムで実行することはできない。
テイラーの定理をラプラスのピラミッドパターンで無限近似する原理を導入し、4K画像をリアルタイムで処理できるモデルを構築する。
論文 参考訳(メタデータ) (2022-02-17T11:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。