Fugu-MT 論文翻訳(概要): gQIR: Generative Quanta Image Reconstruction

論文の概要: gQIR: Generative Quanta Image Reconstruction

arxiv url: http://arxiv.org/abs/2602.20417v1
Date: Mon, 23 Feb 2026 23:33:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.550185
Title: gQIR: Generative Quanta Image Reconstruction
Title（参考訳）: gQIR: 生成量子画像再構成
Authors: Aryan Garg, Sizhuo Ma, Mohit Gupta,
Abstract要約: 本稿では,大きなテキストから画像への潜伏拡散モデルを量子バースト画像の光子制限領域に適応させる手法を提案する。潜時空間の復元とバーストレベルの時間的推論を組み合わせることで,光度に忠実かつ知覚的に快く再現する。
参考スコア（独自算出の注目度）: 18.400282448827507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Capturing high-quality images from only a few detected photons is a fundamental challenge in computational imaging. Single-photon avalanche diode (SPAD) sensors promise high-quality imaging in regimes where conventional cameras fail, but raw \emph{quanta frames} contain only sparse, noisy, binary photon detections. Recovering a coherent image from a burst of such frames requires handling alignment, denoising, and demosaicing (for color) under noise statistics far outside those assumed by standard restoration pipelines or modern generative models. We present an approach that adapts large text-to-image latent diffusion models to the photon-limited domain of quanta burst imaging. Our method leverages the structural and semantic priors of internet-scale diffusion models while introducing mechanisms to handle Bernoulli photon statistics. By integrating latent-space restoration with burst-level spatio-temporal reasoning, our approach produces reconstructions that are both photometrically faithful and perceptually pleasing, even under high-speed motion. We evaluate the method on synthetic benchmarks and new real-world datasets, including the first color SPAD burst dataset and a challenging \textit{Deforming (XD)} video benchmark. Across all settings, the approach substantially improves perceptual quality over classical and modern learning-based baselines, demonstrating the promise of adapting large generative priors to extreme photon-limited sensing. Code at \href{https://github.com/Aryan-Garg/gQIR}{https://github.com/Aryan-Garg/gQIR}.
Abstract（参考訳）: 検出された数個の光子から高品質な画像をキャプチャすることは、計算画像の基本的な課題である。単一光子アバランシェダイオード(SPAD)センサーは、従来のカメラが故障したレシエーションにおいて高品質な撮像を約束するが、生の \emph{quanta frames} はスパース、ノイズ、バイナリ光子検出のみを含む。このようなフレームのバーストからコヒーレントなイメージを復元するには、標準的な復元パイプラインや現代的な生成モデルによって仮定されるものよりもはるかに離れたノイズ統計の下で、アライメント、デノナイズ、および(色に対する)復調を扱う必要がある。本稿では,大きなテキストから画像への潜伏拡散モデルを量子バースト画像の光子制限領域に適応させる手法を提案する。本手法は,Bernoulli光子統計処理機構を導入しながら,インターネット規模の拡散モデルの構造的・意味的先行性を活用する。提案手法は,潜時空間復元とバーストレベルの時空間的推論を組み合わせることで,高速動作下であっても,光量的に忠実かつ知覚的に快く再現する。最初のカラーSPADバーストデータセットと、挑戦的な \textit{Deforming (XD) ビデオベンチマークを含む、合成ベンチマークと新しい実世界のデータセットの評価を行った。すべての設定において、このアプローチは、古典的および近代的な学習ベースラインよりも知覚的品質を大幅に改善し、極端光子制限センシングに大規模な生成前を適応させることの可能性を証明している。コードネームは \href{https://github.com/Aryan-Garg/gQIR}{https://github.com/Aryan-Garg/gQIR}。

関連論文リスト

Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation [36.41177812868683]
遅延拡散モデルは高品質な画像を生成するのに優れるが、エンドツーエンドのモデリングの利点は失われる。本稿では,生の自然画像上での潜伏拡散の効率性を実現するため,既存のアーキテクチャを簡易に修正した潜伏強制法を提案する。 Latent Forcingは、我々の計算スケールで拡散トランスフォーマーベースのピクセル生成のための新しい最先端を実現する。
論文参考訳（メタデータ） (2026-02-11T22:09:58Z)
LensNet: An End-to-End Learning Framework for Empirical Point Spread Function Modeling and Lensless Imaging Reconstruction [32.85180149439811]
レンズレスイメージングは、従来のレンズベースのシステムに代わる有望な選択肢である。従来のレンズレス技術は、しばしば明示的な校正と広範な前処理を必要とする。本研究では,空間領域と周波数領域の表現を統合したエンドツーエンドのディープラーニングフレームワークであるLensNetを提案する。
論文参考訳（メタデータ） (2025-05-03T09:11:52Z)
bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction [57.199618102578576]
疎二分量時間画像データから高画質の画像スタックを元の解像度で再構成する新しい方法であるbit2bitを提案する。 Poisson denoisingの最近の研究に触発されて、スパースバイナリ光子データから高密度な画像列を生成するアルゴリズムを開発した。本研究では,様々な課題の画像条件下でのSPADの高速映像を多種多種に含む新しいデータセットを提案する。
論文参考訳（メタデータ） (2024-10-30T17:30:35Z)
SpikeNeRF: Learning Neural Radiance Fields from Continuous Spike Stream [26.165424006344267]
スパイクカメラは、標準的なカメラよりも明確な利点がある。スパイクカメラに依存する既存のアプローチは、しばしば最適な照明を仮定する。スパイクカメラデータからNeRFに基づくボリュームシーン表現を導出した最初の作品であるSpikeNeRFを紹介する。
論文参考訳（メタデータ） (2024-03-17T13:51:25Z)
LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文参考訳（メタデータ） (2023-12-02T04:31:51Z)
On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。 IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文参考訳（メタデータ） (2023-09-26T08:32:55Z)
InfoNeRF: Ray Entropy Minimization for Few-Shot Neural Volume Rendering [55.70938412352287]
ニューラルな暗黙表現に基づく数ショットの新規ビュー合成のための情報理論正規化手法を提案する。提案手法は,不十分な視点で発生する潜在的な復元の不整合を最小化する。複数の標準ベンチマークにおいて,既存のニューラルビュー合成手法と比較して一貫した性能向上を実現している。
論文参考訳（メタデータ） (2021-12-31T11:56:01Z)
Unsupervised Single Image Super-resolution Under Complex Noise [60.566471567837574]
本稿では,一般のSISRタスクを未知の劣化で扱うためのモデルベースunsupervised SISR法を提案する。提案手法は, より小さなモデル (0.34M vs. 2.40M) だけでなく, より高速な技術 (SotA) 法 (約1dB PSNR) の現況を明らかに超えることができる。
論文参考訳（メタデータ） (2021-07-02T11:55:40Z)
Single Image Brightening via Multi-Scale Exposure Fusion with Hybrid Learning [48.890709236564945]
小さいISOと小さな露光時間は、通常、背面または低い光条件下で画像をキャプチャするために使用される。本稿では、そのような画像を明るくするために、単一の画像輝度化アルゴリズムを提案する。提案アルゴリズムは,露出時間が大きい2つの仮想画像を生成するための,ユニークなハイブリッド学習フレームワークを含む。
論文参考訳（メタデータ） (2020-07-04T08:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。