Fugu-MT 論文翻訳(概要): Real3D: Scaling Up Large Reconstruction Models with Real-World Images

論文の概要: Real3D: Scaling Up Large Reconstruction Models with Real-World Images

arxiv url: http://arxiv.org/abs/2406.08479v1
Date: Wed, 12 Jun 2024 17:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 15:27:35.105213
Title: Real3D: Scaling Up Large Reconstruction Models with Real-World Images
Title（参考訳）: Real3D: リアルタイム画像による大規模再構成モデルのスケールアップ
Authors: Hanwen Jiang, Qixing Huang, Georgios Pavlakos,
Abstract要約: Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。 In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
参考スコア（独自算出の注目度）: 34.735198125706326
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The default strategy for training single-view Large Reconstruction Models (LRMs) follows the fully supervised route using large-scale datasets of synthetic 3D assets or multi-view captures. Although these resources simplify the training procedure, they are hard to scale up beyond the existing datasets and they are not necessarily representative of the real distribution of object shapes. To address these limitations, in this paper, we introduce Real3D, the first LRM system that can be trained using single-view real-world images. Real3D introduces a novel self-training framework that can benefit from both the existing synthetic data and diverse single-view real images. We propose two unsupervised losses that allow us to supervise LRMs at the pixel- and semantic-level, even for training examples without ground-truth 3D or novel views. To further improve performance and scale up the image data, we develop an automatic data curation approach to collect high-quality examples from in-the-wild images. Our experiments show that Real3D consistently outperforms prior work in four diverse evaluation settings that include real and synthetic data, as well as both in-domain and out-of-domain shapes. Code and model can be found here: https://hwjiang1510.github.io/Real3D/
Abstract（参考訳）: 単一ビュー大再構成モデル(LRM)をトレーニングするためのデフォルトの戦略は、合成3D資産の大規模なデータセットやマルチビューキャプチャを使用した完全な教師付きルートに従う。これらのリソースはトレーニング手順を単純化するが、既存のデータセットを超えてスケールアップすることは困難であり、必ずしもオブジェクトの実際の分布を表すものではない。これらの制約に対処するために,本論文では,単一視点の現実画像を用いてトレーニング可能な,最初のLEMシステムであるReal3Dを紹介する。 Real3Dは、既存の合成データと多様なシングルビューリアルイメージの両方の恩恵を受けることができる新しい自己学習フレームワークを導入している。そこで本研究では,LRMの画素レベルでの監視と意味レベルでの監視を可能にする2つの教師なしの損失を提案する。画像データの改善とスケールアップのために,我々は,高品質な画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。我々の実験では、Real3Dは、ドメイン内およびドメイン外の両方の形状だけでなく、実データと合成データを含む4つの多様な評価設定において、先行作業よりも一貫して優れています。コードとモデルはここにある。 https://hwjiang1510.github.io/Real3D/

関連論文リスト

R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。 R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文参考訳（メタデータ） (2025-06-09T14:50:19Z)
Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images [23.731451842621933]
実世界の任意の単一視点画像から光フロー推定を学習するための大規模データ生成フレームワークを開発した。大規模な実世界の画像から光フロートレーニングデータを生成する利点を初めて示す。我々のモデルは、基礎モデルとして機能し、様々なダウンストリームビデオタスクのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-06-09T13:23:44Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。 LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-08T00:03:52Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文参考訳（メタデータ） (2022-12-12T20:28:13Z)
Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文参考訳（メタデータ） (2022-11-21T17:42:42Z)
Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文参考訳（メタデータ） (2022-04-06T17:54:46Z)
SDF-SRN: Learning Signed Distance 3D Object Reconstruction from Static Images [44.78174845839193]
近年の取り組みは、注釈付き2DシルエットによるRGB画像から3Dの監督なしに3Dの再構築を学ぶことに変わった。これらのテクニックは、トレーニング中に同じオブジェクトインスタンスのマルチビューアノテーションを必要とする。本研究では,SDF-SRNを提案する。
論文参考訳（メタデータ） (2020-10-20T17:59:47Z)
Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文参考訳（メタデータ） (2020-06-29T12:53:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。