論文の概要: RealD$^2$iff: Bridging Real-World Gap in Robot Manipulation via Depth Diffusion
- arxiv url: http://arxiv.org/abs/2511.22505v1
- Date: Thu, 27 Nov 2025 14:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.610093
- Title: RealD$^2$iff: Bridging Real-World Gap in Robot Manipulation via Depth Diffusion
- Title(参考訳): RealD$2$iff:depth Diffusionによるロボット操作におけるリアルワールドギャップのブリッジ
- Authors: Xiujian Liang, Jiacheng Liu, Mingyang Sun, Qichen He, Cewu Lu, Jianhua Sun,
- Abstract要約: 雑音深度を合成することを学ぶクリーン・ツー・ノイズのパラダイムを提案する。
本稿では,階層的な粗い拡散フレームワークであるRealD$2$iffを紹介する。
本パラダイムの有効性を示す実証的,実験的な検証を行う。
- 参考スコア(独自算出の注目度): 48.86480272116588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot manipulation in the real world is fundamentally constrained by the visual sim2real gap, where depth observations collected in simulation fail to reflect the complex noise patterns inherent to real sensors. In this work, inspired by the denoising capability of diffusion models, we invert the conventional perspective and propose a clean-to-noisy paradigm that learns to synthesize noisy depth, thereby bridging the visual sim2real gap through purely simulation-driven robotic learning. Building on this idea, we introduce RealD$^2$iff, a hierarchical coarse-to-fine diffusion framework that decomposes depth noise into global structural distortions and fine-grained local perturbations. To enable progressive learning of these components, we further develop two complementary strategies: Frequency-Guided Supervision (FGS) for global structure modeling and Discrepancy-Guided Optimization (DGO) for localized refinement. To integrate RealD$^2$iff seamlessly into imitation learning, we construct a pipeline that spans six stages. We provide comprehensive empirical and experimental validation demonstrating the effectiveness of this paradigm. RealD$^2$iff enables two key applications: (1) generating real-world-like depth to construct clean-noisy paired datasets without manual sensor data collection. (2) Achieving zero-shot sim2real robot manipulation, substantially improving real-world performance without additional fine-tuning.
- Abstract(参考訳): 実世界におけるロボットの操作は、シミュレーションで収集された深度観測が、実際のセンサーに固有の複雑なノイズパターンを反映しない視覚的シム2リアルギャップによって、基本的に制限されている。
本研究は,拡散モデルのデノイング能力に触発されて,従来の視点を逆転させ,ノイズの深い深さを合成することを学ぶクリーン・ツー・ノイズのパラダイムを提案し,純粋にシミュレーション駆動型ロボット学習によって視覚的シモディリアルギャップをブリッジする。
このアイデアに基づいて、大域的な構造歪みときめ細かい局所摂動に深度ノイズを分解する階層的粗い拡散フレームワークであるRealD$2$iffを導入する。
グローバルな構造モデリングのための周波数誘導スーパービジョン(FGS)と、局所的な洗練のための離散誘導最適化(DGO)の2つの補完戦略をさらに発展させる。
RealD$2$iffを模倣学習にシームレスに統合するために、我々は6つのステージにまたがるパイプラインを構築した。
本パラダイムの有効性を実証する総合的な実証的,実験的な検証を行う。
RealD$2$iffは、(1)現実世界のような深度を生成して、手動のセンサデータ収集なしでクリーンでノイズの多いペア化されたデータセットを構築する、2つの重要なアプリケーションを可能にする。
2)ゼロショットシム2リアルロボット操作の実現により,微調整を伴わずに実世界の性能を大幅に向上する。
関連論文リスト
- R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Unsupervised Image Super-Resolution Reconstruction Based on Real-World Degradation Patterns [4.977925450373957]
超解像再構成モデルのトレーニングのための新しいTripleGANフレームワークを提案する。
このフレームワークは、LR観測から実世界の劣化パターンを学習し、対応する劣化特性を持つデータセットを合成する。
本手法は, 過スムーズなアーティファクトを伴わずに, 鋭い復元を維持しながら, 定量的な測定値に明らかな利点を示す。
論文 参考訳(メタデータ) (2025-06-20T14:24:48Z) - Real-World Remote Sensing Image Dehazing: Benchmark and Baseline [19.747354924759104]
実世界のリモートセンシングのハージーなイメージペアの不足により、既存の手法は、主に合成データセットに頼らざるを得なくなった。
実世界のハズー画像とデハズー画像のペアを含む最初の大規模データセットであるRRSHID(Real-World Remote Sensing Hazy Image dataset)を紹介する。
そこで本研究では,実世界のRSIDに適した新しいフレームワークMCAF-Netを提案する。
論文 参考訳(メタデータ) (2025-03-23T07:15:46Z) - RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。
RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。
我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T05:55:39Z) - Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution [81.74583887661794]
整数と非整数のスケーリング要素を併用した,新しい実世界のスーパーレゾリューションベンチマークを構築した。
実世界の任意の超解像を解くために,Dual-level Deformable Implicit Representation (DDIR)を提案する。
実世界の任意の超解像のためのRealArbiSRおよびRealSRベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-16T13:44:42Z) - Closing the Visual Sim-to-Real Gap with Object-Composable NeRFs [59.12526668734703]
本稿では,オブジェクト合成可能なNeRFモデルであるComposable Object Volume NeRF(COV-NeRF)を紹介する。
COV-NeRFは、実際の画像からオブジェクトを抽出し、それらを新しいシーンに合成し、フォトリアリスティックなレンダリングと多くのタイプの2Dおよび3D監視を生成する。
論文 参考訳(メタデータ) (2024-03-07T00:00:02Z) - Rethinking Blur Synthesis for Deep Real-World Image Deblurring [4.00114307523959]
本稿では,撮影過程をシミュレートする,新しいリアルなボケ合成パイプラインを提案する。
機能領域における非局所的依存関係と局所的コンテキストを同時にキャプチャする効果的なデブロアリングモデルを開発する。
3つの実世界のデータセットに関する総合的な実験により、提案したデブロアリングモデルは最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-09-28T06:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。