論文の概要: DeFM: Learning Foundation Representations from Depth for Robotics
- arxiv url: http://arxiv.org/abs/2601.18923v1
- Date: Mon, 26 Jan 2026 19:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.048143
- Title: DeFM: Learning Foundation Representations from Depth for Robotics
- Title(参考訳): DeFM: ロボティクスの深みから学ぶ基礎表現
- Authors: Manthan Patel, Jonas Frey, Mayank Mittal, Fan Yang, Alexander Hansson, Amir Bar, Cesar Cadena, Marco Hutter,
- Abstract要約: DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
- 参考スコア(独自算出の注目度): 49.77188649197404
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/
- Abstract(参考訳): 深度センサーはロボットプラットフォーム全体に広く展開されており、高速で高忠実な深度シミュレーションの進歩により、深度観測で訓練されたロボットポリシーが、幅広いタスクに対して堅牢なsim-to-real転送を実現することが可能になった。
それにもかかわらず、深度モダリティの表現学習はRGBと比較して未熟であり、そこでは大規模な基礎モデルが現在最先端のモデルを定義している。
このギャップに対処するために、ロボットアプリケーションのための深度画像に完全に焦点を絞った自己教師型基礎モデルであるDeFMを提案する。
60M深度画像のキュレートされたデータセット上でDINOスタイルの自己蒸留目標を使用して、DeFMは多様な環境、タスク、センサーに一般化する幾何学的および意味表現を学ぶ。
複数の尺度にまたがってメトリクス認識を維持するために,新しい入力正規化戦略を導入する。
さらに,DeFMを資源制約型ロボットシステムに適したコンパクトなモデルに蒸留する。
深度に基づく分類、セグメンテーション、ナビゲーション、移動、および操作ベンチマークに基づいて評価すると、DeFMは最先端のパフォーマンスを達成し、シミュレーションから実環境への強力な一般化を示す。
タスク固有の微調整を必要とせずに、奥行きに基づくロボット学習のために、既訓練のモデルを全てリリースする。
Webページ: https://de-fm.github.io/
関連論文リスト
- BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation [17.554501937884172]
BRIDGEはRL最適化Deep-to-image(D2I)生成フレームワークである。
現実的かつ幾何学的に正確なRGB画像を20万枚以上合成する。
我々は,このデータセット上で,ハイブリッド監視戦略を用いて深度推定モデルを訓練する。
論文 参考訳(メタデータ) (2025-09-29T17:19:45Z) - Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots [55.43376513158555]
カメラ深度モデル (CDMs) は日用深度カメラの単純なプラグインである。
我々は,ディープカメラのノイズパターンをモデル化することにより,シミュレーションから高品質なペアデータを生成するニューラルデータエンジンを開発した。
私たちの実験では、ノイズや現実世界の微調整を必要とせず、生のシミュレートされた深さで訓練されたポリシーが、現実のロボットにシームレスに一般化されることを初めて実証しました。
論文 参考訳(メタデータ) (2025-09-02T17:29:38Z) - Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation [0.6533458718563319]
本稿では,腕を備えた四足歩行の把握能力を高めるための枠組みを提案する。
そこで我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握試行の合成データセットを生成する。
このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。
四脚ロボットの完全な枠組みを検証した。
論文 参考訳(メタデータ) (2025-08-24T17:47:56Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - On Deep Learning Techniques to Boost Monocular Depth Estimation for
Autonomous Navigation [1.9007546108571112]
画像の深さを推定することはコンピュータビジョンの分野における根本的な逆問題である。
本稿では,新しい特徴抽出モデルと組み合わせ,軽量で高速なCNNアーキテクチャを提案する。
また,SIDE問題を解くために,単純な幾何2.5D損失関数と組み合わせて効率的な表面正規化モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-13T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。