論文の概要: Computer vision training dataset generation for robotic environments using Gaussian splatting
- arxiv url: http://arxiv.org/abs/2512.13411v1
- Date: Mon, 15 Dec 2025 15:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.713162
- Title: Computer vision training dataset generation for robotic environments using Gaussian splatting
- Title(参考訳): ガウススプラッティングを用いたロボット環境のためのコンピュータビジョントレーニングデータセット生成
- Authors: Patryk Niżeniec, Marcin Iwanowski,
- Abstract要約: 本稿では,ロボット環境におけるコンピュータビジョンタスクのための大規模かつ現実的で,自動的にラベル付けされたデータセットを生成するための新しいパイプラインを提案する。
我々は3Dガウススプラッティング(3DGS)を利用して、運用環境とオブジェクトの光リアル表現を作成する。
新たな2パスレンダリング技術は、スプレートのリアリズムと、プロキシメッシュから生成されたシャドウマップを組み合わせる。
画素完全セグメンテーションマスクは自動的に生成され、YOLOのようなオブジェクト検出モデルで直接使用するためにフォーマットされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel pipeline for generating large-scale, highly realistic, and automatically labeled datasets for computer vision tasks in robotic environments. Our approach addresses the critical challenges of the domain gap between synthetic and real-world imagery and the time-consuming bottleneck of manual annotation. We leverage 3D Gaussian Splatting (3DGS) to create photorealistic representations of the operational environment and objects. These assets are then used in a game engine where physics simulations create natural arrangements. A novel, two-pass rendering technique combines the realism of splats with a shadow map generated from proxy meshes. This map is then algorithmically composited with the image to add both physically plausible shadows and subtle highlights, significantly enhancing realism. Pixel-perfect segmentation masks are generated automatically and formatted for direct use with object detection models like YOLO. Our experiments show that a hybrid training strategy, combining a small set of real images with a large volume of our synthetic data, yields the best detection and segmentation performance, confirming this as an optimal strategy for efficiently achieving robust and accurate models.
- Abstract(参考訳): 本稿では,ロボット環境におけるコンピュータビジョンタスクのための大規模かつ現実的で,自動的にラベル付けされたデータセットを生成するための新しいパイプラインを提案する。
提案手法は,合成画像と実世界の画像の領域ギャップと手動アノテーションの時間的ボトルネックに対処する。
我々は3Dガウススプラッティング(3DGS)を利用して、運用環境とオブジェクトの光リアル表現を作成する。
これらの資産は、物理シミュレーションが自然な配置を生成するゲームエンジンで使用される。
新たな2パスレンダリング技術は、スプレートのリアリズムと、プロキシメッシュから生成されたシャドウマップを組み合わせる。
このマップはアルゴリズムで画像と合成され、物理的に可視な影と微妙なハイライトの両方を追加し、リアリズムを著しく向上させる。
画素完全セグメンテーションマスクは自動的に生成され、YOLOのようなオブジェクト検出モデルで直接使用するためにフォーマットされる。
実験により,少数の実画像と大量の合成データを組み合わせたハイブリッドトレーニング戦略が最高の検出・セグメント化性能を示し,ロバストかつ高精度なモデルを実現するための最適戦略であることを確認した。
関連論文リスト
- Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation [0.6533458718563319]
本稿では,腕を備えた四足歩行の把握能力を高めるための枠組みを提案する。
そこで我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握試行の合成データセットを生成する。
このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。
四脚ロボットの完全な枠組みを検証した。
論文 参考訳(メタデータ) (2025-08-24T17:47:56Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Synthetic Dataset Generation for Autonomous Mobile Robots Using 3D Gaussian Splatting for Vision Training [0.708987965338602]
本論文では,Unreal Engineにおける注釈付き合成データの自動生成手法を提案する。
合成データセットが実世界のデータセットに匹敵する性能を達成できることを実証する。
これは、ロボットサッカーにおけるオブジェクト検出アルゴリズムのトレーニングのための合成データの最初の応用である。
論文 参考訳(メタデータ) (2025-06-05T14:37:40Z) - Cut-and-Splat: Leveraging Gaussian Splatting for Synthetic Data Generation [0.7864304771129751]
我々は、特定のオブジェクトに対するコンテキスト対応のインスタンスセグメンテーショントレーニングデータを生成するための合成データパイプラインを開発する。
対象物体のガウススティングモデルを訓練し,映像から対象物を自動的に抽出する。
次に、ランダムな背景画像にオブジェクトを描画し、モノクロ深度推定を用いて、オブジェクトを信頼できるポーズに配置する。
論文 参考訳(メタデータ) (2025-04-11T12:04:49Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。