論文の概要: MonoRelief V2: Leveraging Real Data for High-Fidelity Monocular Relief Recovery
- arxiv url: http://arxiv.org/abs/2508.19555v1
- Date: Wed, 27 Aug 2025 04:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.484845
- Title: MonoRelief V2: Leveraging Real Data for High-Fidelity Monocular Relief Recovery
- Title(参考訳): MonoRelief V2: 高忠実なモノクロリカバリのためのリアルタイムデータを活用する
- Authors: Yu-Wei Zhang, Tongju Han, Lipeng Gao, Mingqiang Wei, Hui Liu, Changbao Li, Caiming Zhang,
- Abstract要約: MonoRelief V2は、単一イメージから2.5Dレリーフを復元するために設計されたエンドツーエンドモデルである。
実際のデータを組み込んで、堅牢性、正確性、効率性を向上する。
- 参考スコア(独自算出の注目度): 32.10050937183326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents MonoRelief V2, an end-to-end model designed for directly recovering 2.5D reliefs from single images under complex material and illumination variations. In contrast to its predecessor, MonoRelief V1 [1], which was solely trained on synthetic data, MonoRelief V2 incorporates real data to achieve improved robustness, accuracy and efficiency. To overcome the challenge of acquiring large-scale real-world dataset, we generate approximately 15,000 pseudo real images using a text-to-image generative model, and derive corresponding depth pseudo-labels through fusion of depth and normal predictions. Furthermore, we construct a small-scale real-world dataset (800 samples) via multi-view reconstruction and detail refinement. MonoRelief V2 is then progressively trained on the pseudo-real and real-world datasets. Comprehensive experiments demonstrate its state-of-the-art performance both in depth and normal predictions, highlighting its strong potential for a range of downstream applications. Code is at: https://github.com/glp1001/MonoreliefV2.
- Abstract(参考訳): 本稿では,複雑な物質および照明条件下での単一画像からの2.5Dレリーフの直接回収を目的とした,エンドツーエンドモデルMonoRelief V2を提案する。
合成データのみをトレーニングしたMonoRelief V1 [1]とは対照的に、MonoRelief V2では、実際のデータを組み込んで、堅牢性、正確性、効率性の向上を実現している。
大規模な実世界のデータセットを取得することの難しさを克服するため,テキスト・ツー・イメージ生成モデルを用いて約15,000個の擬似実画像を生成し,深度と正規予測の融合により対応する擬似ラベルを導出する。
さらに,多視点再構成と細部の改良により,小規模な実世界のデータセット(800サンプル)を構築した。
MonoRelief V2は、擬似現実および実世界のデータセットで徐々にトレーニングされる。
総合的な実験により、その最先端性能は深度と正常な予測の両方で実証され、下流アプリケーションに対する強力な可能性を強調している。
コードは https://github.com/glp1001/MonoreliefV2.com にある。
関連論文リスト
- Boosting Zero-shot Stereo Matching using Large-scale Mixed Images Sources in the Real World [8.56549004133167]
ステレオマッチング法は、密度の高いピクセル単位の基底真理ラベルに依存している。
ラベル付きデータの不足と、合成画像と実世界の画像のドメインギャップは、注目すべき課題である。
視覚基盤モデルと大規模混合画像ソースの両方を活用する新しいフレームワーク textbfBooSTer を提案する。
論文 参考訳(メタデータ) (2025-05-13T14:24:38Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Mono2Stereo: Monocular Knowledge Transfer for Enhanced Stereo Matching [7.840781070208874]
ステレオマッチング,すなわちMono2Stereoを強化するために,モノラルな知識伝達を活用することを提案する。
合成データ事前学習と実世界のデータ微調整を併用した2段階の学習プロセスによる知識伝達を導入する。
実験の結果,事前学習したモデルでは強いゼロショット能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-14T03:01:36Z) - DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation [46.22939360256696]
我々は、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。
我々の先駆的な貢献であるGenIRは、既存のデータセットの制限を克服するデュアルプロンプト学習パイプラインです。
DreamClear は DiT ベースの画像復元モデルである。テキスト・ツー・イメージ(T2I)拡散モデルの生成先行と,マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して復元を実現する。
論文 参考訳(メタデータ) (2024-10-24T11:57:20Z) - Towards Realistic Data Generation for Real-World Super-Resolution [58.99206459754721]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。