論文の概要: Multi-Exposure Image Fusion via Distilled 3D LUT Grid with Editable Mode
- arxiv url: http://arxiv.org/abs/2412.13749v1
- Date: Wed, 18 Dec 2024 11:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:03.671219
- Title: Multi-Exposure Image Fusion via Distilled 3D LUT Grid with Editable Mode
- Title(参考訳): 編集可能な3次元LUTグリッドによるマルチ露光画像融合
- Authors: Xin Su, Zhuoran Zheng,
- Abstract要約: 既存のマルチ露光画像融合アルゴリズムは、リアルタイムに超高解像度の高ダイナミックレンジ画像を生成するのに苦労している。
資源制約のあるデバイス上で,超高精細(UHD)解像度で画像をリアルタイムに高精細化できる3D LUT技術を導入する。
- 参考スコア(独自算出の注目度): 3.367455972998532
- License:
- Abstract: With the rising imaging resolution of handheld devices, existing multi-exposure image fusion algorithms struggle to generate a high dynamic range image with ultra-high resolution in real-time. Apart from that, there is a trend to design a manageable and editable algorithm as the different needs of real application scenarios. To tackle these issues, we introduce 3D LUT technology, which can enhance images with ultra-high-definition (UHD) resolution in real time on resource-constrained devices. However, since the fusion of information from multiple images with different exposure rates is uncertain, and this uncertainty significantly trials the generalization power of the 3D LUT grid. To address this issue and ensure a robust learning space for the model, we propose using a teacher-student network to model the uncertainty on the 3D LUT grid.Furthermore, we provide an editable mode for the multi-exposure image fusion algorithm by using the implicit representation function to match the requirements in different scenarios. Extensive experiments demonstrate that our proposed method is highly competitive in efficiency and accuracy.
- Abstract(参考訳): ハンドヘルドデバイスの高解像度化に伴い、既存のマルチ露光画像融合アルゴリズムは、超高解像度の高ダイナミックレンジ画像をリアルタイムに生成するのに苦労する。
それとは別に、実際のアプリケーションシナリオの異なるニーズとして、管理可能で編集可能なアルゴリズムを設計する傾向があります。
これらの課題に対処するために,資源制約されたデバイス上で,超高精細(UHD)解像度で画像をリアルタイムに高精細化できる3D LUT技術を導入する。
しかし、露光速度が異なる複数の画像からの情報の融合は不確実であり、この不確実性は3D LUTグリッドの一般化力を著しく検証する。
この問題に対処し、モデルのための堅牢な学習空間を確保するため、3D LUTグリッド上での不確かさをモデル化するために教師学生ネットワークを提案するが、同時に、暗黙の表現関数を用いて異なるシナリオの要求に合うように、マルチ露光画像融合アルゴリズムの編集可能なモードを提供する。
大規模な実験により,提案手法は効率と精度において高い競争力を持つことが示された。
関連論文リスト
- Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction [11.349017382503986]
マルチセンサー融合は3次元意味的占有予測の精度と堅牢性を著しく向上させる。
既存のアプローチのほとんどは、トップパフォーマンスを達成するために大きな画像解像度と複雑なネットワークに依存している。
本稿では,3次元物体検出監視を利用して優れた性能を実現する,新しいマルチモーダル占有予測フレームワークであるBEccを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:53:31Z) - DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion [10.713089596405053]
DAE-Fuseは,鮮明で自然な融合画像を生成する2相識別型自動エンコーダフレームワークである。
静止画像からビデオ領域への画像融合技術の拡張を開拓した。
DaE-Fuseは、複数のベンチマークで最先端のパフォーマンスを実現し、医用画像融合のようなタスクに優れた一般化性を持つ。
論文 参考訳(メタデータ) (2024-09-16T08:37:09Z) - vFusedSeg3D: 3rd Place Solution for 2024 Waymo Open Dataset Challenge in Semantic Segmentation [0.0]
VFusedSeg3Dは、カメラ画像のリッチなセマンティックコンテンツと、LiDARの正確な深度センシングを使用して、強力で包括的な環境理解を生成する。
我々の新しい特徴融合技術は、LiDAR点雲の幾何学的特徴とカメラ画像の意味的特徴を組み合わせたものである。
マルチモダリティ技術を用いることで、性能が大幅に向上し、検証セットで72.46%の最先端のmIoUが得られる。
論文 参考訳(メタデータ) (2024-08-09T11:34:19Z) - Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。
Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文 参考訳(メタデータ) (2024-05-19T17:13:16Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection [54.52102265418295]
MLF-DETと呼ばれる,高性能なクロスモーダル3DオブジェクトDrectionのための,新規かつ効果的なマルチレベルフュージョンネットワークを提案する。
特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。
本稿では,画像のセマンティクスを利用して検出候補の信頼度を補正するFCR(Feature-cued Confidence Rectification)モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:26:02Z) - 3D Human Pose, Shape and Texture from Low-Resolution Images and Videos [107.36352212367179]
本稿では,解像度認識ネットワーク,自己スーパービジョン損失,コントラスト学習スキームからなるrsc-netを提案する。
提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。
低解像度映像を扱うRSC-Netを拡張し、低解像度入力からテクスチャ化された3D歩行者の再構築に適用します。
論文 参考訳(メタデータ) (2021-03-11T06:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。