論文の概要: MODEST: Multi-Optics Depth-of-Field Stereo Dataset
- arxiv url: http://arxiv.org/abs/2511.20853v1
- Date: Tue, 25 Nov 2025 20:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.860892
- Title: MODEST: Multi-Optics Depth-of-Field Stereo Dataset
- Title(参考訳): MODEST:マルチ光学深度ステレオデータセット
- Authors: Nisarg K. Trivedi, Vinayak A. Belludi, Li-Yun Wang, Pardis Taghavi, Dante Lok,
- Abstract要約: 18000枚の画像を持つ最初の高分解能(5472$times$3648px)ステレオDSLRデータセットを提示する。
シーンの複雑さ、照明、背景の異なる9シーンでは、10焦点長(28-70mm)と5開口(f/2.8-f/22)の2つの同じカメラアセンブリで撮影される。
このフルレンジ光学被覆は、モノクラー・ステレオ深度推定、浅部深度レンダリング、デブロアリング、3次元シーン再構成、新しいビュー合成のための幾何学的および光学的効果の制御された解析を可能にする。
- 参考スコア(独自算出の注目度): 1.2815904071470705
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reliable depth estimation under real optical conditions remains a core challenge for camera vision in systems such as autonomous robotics and augmented reality. Despite recent progress in depth estimation and depth-of-field rendering, research remains constrained by the lack of large-scale, high-fidelity, real stereo DSLR datasets, limiting real-world generalization and evaluation of models trained on synthetic data as shown extensively in literature. We present the first high-resolution (5472$\times$3648px) stereo DSLR dataset with 18000 images, systematically varying focal length and aperture across complex real scenes and capturing the optical realism and complexity of professional camera systems. For 9 scenes with varying scene complexity, lighting and background, images are captured with two identical camera assemblies at 10 focal lengths (28-70mm) and 5 apertures (f/2.8-f/22), spanning 50 optical configurations in 2000 images per scene. This full-range optics coverage enables controlled analysis of geometric and optical effects for monocular and stereo depth estimation, shallow depth-of-field rendering, deblurring, 3D scene reconstruction and novel view synthesis. Each focal configuration has a dedicated calibration image set, supporting evaluation of classical and learning based methods for intrinsic and extrinsic calibration. The dataset features challenging visual elements such as multi-scale optical illusions, reflective surfaces, mirrors, transparent glass walls, fine-grained details, and natural / artificial ambient light variations. This work attempts to bridge the realism gap between synthetic training data and real camera optics, and demonstrates challenges with the current state-of-the-art monocular, stereo depth and depth-of-field methods. We release the dataset, calibration files, and evaluation code to support reproducible research on real-world optical generalization.
- Abstract(参考訳): 実際の光学条件下での信頼性の高い深度推定は、自律ロボット工学や拡張現実のようなシステムにおけるカメラビジョンのコア課題である。
近年の深度推定と深度レンダリングの進歩にもかかわらず、大規模で高忠実な実ステレオDSLRデータセットの欠如、実世界の一般化の制限、そして文献で広く示されているように、合成データに基づいて訓練されたモデルの評価によって研究は制限されている。
我々は,18000枚の画像を持つ最初の高分解能(5472$\times$3648px)ステレオDSLRデータセットを提示する。
シーンの複雑さ、照明、背景の異なる9つのシーンでは、10焦点長 (28-70mm) と5開口 (f/2.8-f/22) の2つの同じカメラ集合体で撮影され、1シーンあたり2000枚の画像に50の光学的構成がある。
このフルレンジ光学被覆は、モノクラー・ステレオ深度推定、浅部深度レンダリング、デブロアリング、3次元シーン再構成、新しいビュー合成のための幾何学的および光学的効果の制御された解析を可能にする。
各焦点設定には専用キャリブレーションイメージセットがあり、内在的・外在的キャリブレーションのための古典的・学習的手法の評価を支援する。
このデータセットは、マルチスケールの光学錯視、反射面、鏡、透明ガラスの壁、きめ細かい細部、自然と人工の環境光の変動など、困難な視覚要素を特徴としている。
この研究は、合成トレーニングデータと実際のカメラ光学の間のリアリズムギャップを埋めようと試み、現状のモノクラー、ステレオ深度、フィールド深度といった手法による課題を実証する。
我々は、実世界の光一般化に関する再現可能な研究を支援するために、データセット、校正ファイル、評価コードをリリースする。
関連論文リスト
- Reflect3r: Single-View 3D Stereo Reconstruction Aided by Mirror Reflections [55.248092751290834]
ミラーリフレクションは日常の環境で一般的であり、単一のキャプチャ内でステレオ情報を提供することができる。
我々はこの特性を利用して、リフレクションを補助的な視点として扱い、物理的に有効な仮想カメラを構成する変換を設計する。
これにより、単一の画像から多視点ステレオ設定が可能となり、撮像プロセスが簡単になる。
論文 参考訳(メタデータ) (2025-09-24T23:00:22Z) - LuxDiT: Lighting Estimation with Video Diffusion Transformer [66.60450792095901]
単一の画像やビデオからシーンライティングを推定することは、コンピュータビジョンとグラフィックスにおいて長年の課題である。
本稿では,映像拡散変換器を微調整し,視覚入力を前提としたHDR環境マップを生成するLuxDiTを提案する。
論文 参考訳(メタデータ) (2025-09-03T19:59:20Z) - Efficient Depth- and Spatially-Varying Image Simulation for Defocus Deblur [16.9629875455607]
既存のオープンソースデータセットでトレーニングされたディープラーニングモデルは、多くの場合、ドメインギャップに直面し、現実世界の設定ではうまく機能しない。
実世界のデータによる微調整に依存しない,効率的でスケーラブルなデータセットアプローチを提案する。
提案手法は深度に依存したデフォーカスと空間的に変化する光学収差を同時にモデル化し、計算複雑性と高品質なRGB-Dデータセットの不足に対処する。
論文 参考訳(メタデータ) (2025-07-01T02:03:04Z) - Illuminating Darkness: Learning to Enhance Low-light Images In-the-Wild [47.39277249268179]
野生で収集された大規模で高解像度な4K+データセットであるLow-Light smartphone dataset (LSD)を紹介した。
LSDには6,425点の正確に整列された低照度と標準照度の画像ペアが含まれており、8000点以上のダイナミックな屋内と屋外のシーンから選択されている。
そこで本研究では,彩度と彩度を別々に符号化し,色構造との絡み合いを低減するハイブリッドモデルTFFormerを提案する。
論文 参考訳(メタデータ) (2025-03-10T04:01:56Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - Acquisition of Spatially-Varying Reflectance and Surface Normals via Polarized Reflectance Fields [15.653977591138682]
実世界の物体の幾何と空間的に変化する反射率を正確に測定することは複雑な作業である。
偏光反射場キャプチャーと包括的統計解析アルゴリズムを用いた新しい手法を提案する。
広帯域の多種多様な物体の捕集形状と反射率を, 拡散度から光沢の範囲で示す。
論文 参考訳(メタデータ) (2024-12-13T00:39:55Z) - Helvipad: A Real-World Dataset for Omnidirectional Stereo Depth Estimation [83.841877607646]
全方位ステレオ深度推定のための実世界のデータセットであるHelvipadを紹介する。
このデータセットは、3Dポイント雲を等方形画像に投影することで、正確な深度と不均質のラベルを含む。
標準画像と全方位画像のステレオ深度推定モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-11-27T13:34:41Z) - Incorporating dense metric depth into neural 3D representations for view synthesis and relighting [25.028859317188395]
ロボット応用では、密度の深い距離の深さをステレオで直接測定することができ、照明を制御できる。
本研究は,ニューラルネットワークによる3次元表現のトレーニングに高密度な距離深度を組み込む手法を実証する。
また、パイプラインに必要なデータを取得し、リライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。
論文 参考訳(メタデータ) (2024-09-04T20:21:13Z) - LUCES: A Dataset for Near-Field Point Light Source Photometric Stereo [30.31403197697561]
LUCESは, 様々な素材の14個のオブジェクトからなる, 近距離Ld点光のための最初の実世界のデータセットである。
52個のLEDを計る装置は、カメラから10から30cm離れた位置にある各物体に点灯するように設計されている。
提案するデータセットにおける最新の近接場測光ステレオアルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2021-04-27T12:30:42Z) - Neural Reflectance Fields for Appearance Acquisition [61.542001266380375]
シーン内の任意の3次元点における体積密度, 正規および反射特性をエンコードする新しい深部シーン表現であるニューラルリフレクタンス場を提案する。
我々はこの表現を、任意の視点と光の下でニューラルリフレクタンスフィールドから画像を描画できる物理的にベースとした微分可能光線マーチングフレームワークと組み合わせる。
論文 参考訳(メタデータ) (2020-08-09T22:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。