論文の概要: DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI
- arxiv url: http://arxiv.org/abs/2508.08831v1
- Date: Tue, 12 Aug 2025 10:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.395283
- Title: DiffPhysCam: Differentiable Physics-Based Camera Simulation for Inverse Rendering and Embodied AI
- Title(参考訳): DiffPhysCam: 逆レンダリングと身体的AIのための微分可能な物理ベースカメラシミュレーション
- Authors: Bo-Hsun Chen, Nevindu M. Batagoda, Dan Negrut,
- Abstract要約: DiffPhysCamは、ロボット工学と組み込みAIアプリケーションをサポートするために設計された、差別化可能なカメラシミュレータである。
異なるレンダリングにより、現実世界のシーンをデジタルツインとして逆復元することができる。
DiffPhysCamは、合成画像タスクにおけるロボット知覚性能を向上させる。
- 参考スコア(独自算出の注目度): 0.49157446832511503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DiffPhysCam, a differentiable camera simulator designed to support robotics and embodied AI applications by enabling gradient-based optimization in visual perception pipelines. Generating synthetic images that closely mimic those from real cameras is essential for training visual models and enabling end-to-end visuomotor learning. Moreover, differentiable rendering allows inverse reconstruction of real-world scenes as digital twins, facilitating simulation-based robotics training. However, existing virtual cameras offer limited control over intrinsic settings, poorly capture optical artifacts, and lack tunable calibration parameters -- hindering sim-to-real transfer. DiffPhysCam addresses these limitations through a multi-stage pipeline that provides fine-grained control over camera settings, models key optical effects such as defocus blur, and supports calibration with real-world data. It enables both forward rendering for image synthesis and inverse rendering for 3D scene reconstruction, including mesh and material texture optimization. We show that DiffPhysCam enhances robotic perception performance in synthetic image tasks. As an illustrative example, we create a digital twin of a real-world scene using inverse rendering, simulate it in a multi-physics environment, and demonstrate navigation of an autonomous ground vehicle using images generated by DiffPhysCam.
- Abstract(参考訳): DiffPhysCamは、ロボット工学とAIアプリケーションの具体化を支援するために設計された、視覚知覚パイプラインにおける勾配に基づく最適化を可能にする、微分可能なカメラシミュレータである。
実際のカメラからそれらを忠実に模倣する合成画像を生成することは、視覚モデルを訓練し、エンドツーエンドの視覚運動学習を可能にするために不可欠である。
さらに、差別化可能なレンダリングにより、現実世界のシーンをデジタル双生児として逆復元し、シミュレーションベースのロボット工学のトレーニングを容易にする。
しかし、既存のバーチャルカメラは、固有の設定を限定的に制御し、光学的アーティファクトを捕捉しにくくし、調整可能なキャリブレーションパラメータが欠如しており、sim-to-real転送を妨げている。
DiffPhysCamは、カメラ設定のきめ細かい制御、デフォーカスブラーなどの重要な光学効果のモデル、現実世界のデータによるキャリブレーションをサポートするマルチステージパイプラインを通じて、これらの制限に対処する。
画像合成のための前方レンダリングと、メッシュや材料テクスチャの最適化を含む3次元シーン再構成のための逆レンダリングの両方を可能にする。
DiffPhysCamは、合成画像タスクにおけるロボット知覚性能を向上させる。
実証的な例として、逆レンダリングを用いて現実世界のシーンのデジタルツインを作成し、それをマルチ物理環境でシミュレートし、DiffPhysCamで生成された画像を用いて、自律的な地上車両のナビゲーションを実演する。
関連論文リスト
- Unreal Robotics Lab: A High-Fidelity Robotics Simulator with Advanced Physics and Rendering [4.760567755149477]
本稿では,Unreal Engineの高度なレンダリング機能とMuJoCoの高精度物理シミュレーションを統合する新しいシミュレーションフレームワークを提案する。
我々のアプローチは、正確な物理的相互作用を維持しながら、現実的なロボット知覚を可能にする。
フレームワーク内のビジュアルナビゲーションとSLAMメソッドをベンチマークし、制御されながら多様なシナリオで実世界のロバスト性をテストするための実用性を実証する。
論文 参考訳(メタデータ) (2025-04-19T01:54:45Z) - PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos [21.441062722848265]
PhysTwinは、対話中の動的オブジェクトのスパースビデオを使用して、写真と物理的にリアルでリアルタイムなインタラクティブなレプリカを生成する新しいフレームワークである。
提案手法は,(1)現実的な物理シミュレーションのためにバネ質量モデルを組み合わせた物理インフォームド表現,および幾何学のための生成形状モデル,およびレンダリングのためのガウススプラットである。
本手法は,視覚的知覚の手がかりと逆物理の枠組みを統合し,部分的,隠蔽的,限定的な視点からでも高忠実度復元を可能にする。
論文 参考訳(メタデータ) (2025-03-23T07:49:19Z) - DiffusionRenderer: Neural Inverse and Forward Rendering with Video Diffusion Models [83.28670336340608]
逆レンダリングとフォワードレンダリングの二重問題に対処するニューラルアプローチであるDiffusionRendererを導入する。
本モデルは,リライティング,素材編集,現実的なオブジェクト挿入など,単一のビデオ入力から現実的な応用を可能にする。
論文 参考訳(メタデータ) (2025-01-30T18:59:11Z) - FaceFolds: Meshed Radiance Manifolds for Efficient Volumetric Rendering of Dynamic Faces [21.946327323788275]
動的顔の3Dレンダリングは難しい問題である。
本稿では,アクターの動的顔パフォーマンスの高品質なレンダリングを可能にする新しい表現を提案する。
論文 参考訳(メタデータ) (2024-04-22T00:44:13Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic
Images in Facial Capture Pipelines [8.366597450893456]
我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。
本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。
我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
論文 参考訳(メタデータ) (2022-04-22T15:09:49Z) - Enhanced Frame and Event-Based Simulator and Event-Based Video
Interpolation Network [1.4095425725284465]
固定オフセットに任意の数のセンサを配置したカメラリグによって記録されたリアルなシーンを生成できる,新しい高度なイベントシミュレータを提案する。
これには、現実的な画質低下効果を持つフレームベースの新しいイメージセンサモデルと、より正確な特性を持つ拡張DVSモデルが含まれる。
我々のシミュレータによって生成されたデータは、我々の新しいモデルをトレーニングするために利用でき、その結果、アートの状況よりも同等またはより良い品質の公開データセット上の再構成画像が生成される。
論文 参考訳(メタデータ) (2021-12-17T08:27:13Z) - GeoSim: Photorealistic Image Simulation with Geometry-Aware Composition [81.24107630746508]
GeoSimは、新しい都市の運転シーンを合成するジオメトリ認識の画像合成プロセスです。
まず、センサーデータからリアルな形状と外観の両方を備えた多様な3Dオブジェクトのバンクを構築します。
得られた合成画像は、フォトリアリズム、トラフィック認識、幾何学的一貫性があり、画像シミュレーションが複雑なユースケースにスケールできる。
論文 参考訳(メタデータ) (2021-01-16T23:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。