論文の概要: Linear Image Generation by Synthesizing Exposure Brackets
- arxiv url: http://arxiv.org/abs/2604.21008v1
- Date: Wed, 22 Apr 2026 18:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.137491
- Title: Linear Image Generation by Synthesizing Exposure Brackets
- Title(参考訳): 露光ブラケットの合成による線形画像生成
- Authors: Yuekun Dai, Zhoutong Zhang, Shangchen Zhou, Nanxuan Zhao,
- Abstract要約: 現在の生成モデルは、主に表示参照画像を合成する。
本稿では,テキスト-線形画像生成の課題に対処する。
テキスト条件付き露光ブラケット生成のためのDiTベースのフローマッチングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 41.852277562543726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The life of a photo begins with photons striking the sensor, whose signals are passed through a sophisticated image signal processing (ISP) pipeline to produce a display-referred image. However, such images are no longer faithful to the incident light, being compressed in dynamic range and stylized by subjective preferences. In contrast, RAW images record direct sensor signals before non-linear tone mapping. After camera response curve correction and demosaicing, they can be converted into linear images, which are scene-referred representations that directly reflect true irradiance and are invariant to sensor-specific factors. Since image sensors have better dynamic range and bit depth, linear images contain richer information than display-referred ones, leaving users more room for editing during post-processing. Despite this advantage, current generative models mainly synthesize display-referred images, which inherently limits downstream editing. In this paper, we address the task of text-to-linear-image generation: synthesizing a high-quality, scene-referred linear image that preserves full dynamic range, conditioned on a text prompt, for professional post-processing. Generating linear images is challenging, as pre-trained VAEs in latent diffusion models struggle to simultaneously preserve extreme highlights and shadows due to the higher dynamic range and bit depth. To this end, we represent a linear image as a sequence of exposure brackets, each capturing a specific portion of the dynamic range, and propose a DiT-based flow-matching architecture for text-conditioned exposure bracket generation. We further demonstrate downstream applications including text-guided linear image editing and structure-conditioned generation via ControlNet.
- Abstract(参考訳): 画像の寿命は、センサーに光子が当たり、信号が高度な画像信号処理(ISP)パイプラインを通過して表示参照画像を生成することから始まる。
しかし、そのような画像はもはや入射光に忠実ではなく、ダイナミックレンジで圧縮され、主観的嗜好によってスタイル化されている。
対照的にRAW画像は、非線形トーンマッピングの前に直接センサ信号を記録する。
カメラ応答曲線の補正と復調の後、それらを線形画像に変換することができ、これはシーン参照表現であり、真の照射を直接反映し、センサ固有の要因に不変である。
画像センサはダイナミックレンジとビット深度が優れているため、リニアイメージはディスプレイ参照画像よりもリッチな情報を含んでいるため、ユーザーは後処理で編集する余地がある。
この利点にもかかわらず、現在の生成モデルは、主に、下流の編集を本質的に制限する表示参照画像を合成する。
本稿では,テキストプロンプトに条件付きフルダイナミックレンジを保存する高品質なシーン参照リニアイメージをプロのプロセッシングのために合成する,テキスト-線形画像生成の課題に対処する。
線形画像の生成は、遅延拡散モデルにおける事前訓練されたVAEは、高いダイナミックレンジとビット深さのために極端なハイライトと影を同時に保存するのに苦労するため、困難である。
この目的のために、線形画像を露光ブラケットのシーケンスとして表現し、ダイナミックレンジの特定の部分をキャプチャし、テキスト条件の露光ブラケット生成のためのDiTベースのフローマッチングアーキテクチャを提案する。
また、テキスト誘導線形画像編集や、制御ネットによる構造条件生成など、下流のアプリケーションについても紹介する。
関連論文リスト
- RawGen: Learning Camera Raw Image Generation [30.54177507076165]
RawGenは、任意のターゲットカメラに対してテキスト・ツー・ロー生成を可能にする最初の拡散ベースのフレームワークである。
我々は多対一の逆ISPデータセットを構築し、多様なISPパラメータを用いて生成された同一シーンの複数のsRGBリフレクションを、共通のシーン参照ターゲットに固定する。
固定ISPを仮定する従来の逆ISP手法よりもRawGenの方が優れた性能を示す。
論文 参考訳(メタデータ) (2026-03-31T18:12:48Z) - LGTM: Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation [7.432606687404551]
Initial Noise Manipulation を用いた学習自由光誘導型テキスト・画像拡散モデルを提案する。
拡散過程の初期潜音を操り、テキストプロンプトとユーザが特定した光方向で画像生成を誘導する。
画像の品質とテキストアライメントを保ちながら、ライトの一貫性において、プロンプトベースのベースラインを超える。
論文 参考訳(メタデータ) (2026-03-25T08:46:31Z) - DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis [63.59932602411222]
DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。
条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。
我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
論文 参考訳(メタデータ) (2026-02-26T14:00:07Z) - gQIR: Generative Quanta Image Reconstruction [18.400282448827507]
本稿では,大きなテキストから画像への潜伏拡散モデルを量子バースト画像の光子制限領域に適応させる手法を提案する。
潜時空間の復元とバーストレベルの時間的推論を組み合わせることで,光度に忠実かつ知覚的に快く再現する。
論文 参考訳(メタデータ) (2026-02-23T23:33:00Z) - IntrinsiX: High-Quality PBR Generation using Image Priors [49.90007540430264]
IntrinsiXはテキスト記述から高品質な内在画像を生成する新しい手法である。
シーンライティングを内蔵した既存のテキスト・ツー・イメージモデルとは対照的に,本手法では物理ベースのレンダリング(PBR)マップを推定する。
論文 参考訳(メタデータ) (2025-04-01T17:47:48Z) - Bringing Rolling Shutter Images Alive with Dual Reversed Distortion [75.78003680510193]
ローリングシャッター(RS)歪みは、時間とともにインスタントグローバルシャッター(GS)フレームから一列のピクセルを選択した結果であると解釈することができる。
我々は、RS時間における速度場の反復学習を通して、デュアル光流列を生成するための新しいエンド・ツー・エンドモデルIFEDを開発した。
論文 参考訳(メタデータ) (2022-03-12T14:57:49Z) - T\"oRF: Time-of-Flight Radiance Fields for Dynamic Scene View Synthesis [32.878225196378374]
連続波ToFカメラのための画像形成モデルに基づくニューラル表現を提案する。
提案手法は, 動的シーン再構成のロバスト性を改善し, 誤ったキャリブレーションや大きな動きに改善することを示す。
論文 参考訳(メタデータ) (2021-09-30T17:12:59Z) - Thermal Image Processing via Physics-Inspired Deep Networks [21.094006629684376]
DeepIRは、物理的に正確なセンサーモデリングとディープネットワークベースのイメージ表現を組み合わせる。
DeepIRは、トレーニングデータや、既知のブラックボディターゲットによる定期的な地平線校正を必要としない。
シミュレーションおよび実データ実験により、DeepIRは3つの画像で高品質な非均一性補正を行うことができることを示した。
論文 参考訳(メタデータ) (2021-08-18T04:57:48Z) - Learning optical flow from still images [53.295332513139925]
我々は,容易に利用可能な単一の実画像から,高精度な光学的フローアノテーションを迅速かつ多量に生成するフレームワークを提案する。
既知の動きベクトルと回転角を持つ再構成された環境でカメラを仮想的に移動させる。
我々のデータでトレーニングすると、最先端の光フローネットワークは、実データを見るのに優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。