論文の概要: Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control
- arxiv url: http://arxiv.org/abs/2602.11934v1
- Date: Thu, 12 Feb 2026 13:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.396912
- Title: Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control
- Title(参考訳): ロボットDIFT:幾何学的に一貫性のある振動子制御のための拡散特性の蒸留
- Authors: Yu Deng, Yufeng Jin, Xiaogang Jia, Jiahong Xue, Gerhard Neumann, Georgia Chalvatzaki,
- Abstract要約: 一般化可能なロボット操作における重要なボトルネックは、現在の視覚的バックボーンと閉ループ制御の物理的要求との間の構造的ミスマッチである。
我々は,マニフォールド蒸留による推論プロセスから幾何学的情報ソースを分離するフレームワークであるRobot-DIFTを提案する。
凍結拡散教師を決定論的空間意味的特徴ピラミッドネットワーク(S2-FPN)に蒸留することにより、時間的安定性、リアルタイム実行、ドリフトに対する堅牢性を確保しつつ、生成モデルの豊富な幾何学的先行性を維持できる。
- 参考スコア(独自算出の注目度): 31.523644271297616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We hypothesize that a key bottleneck in generalizable robot manipulation is not solely data scale or policy capacity, but a structural mismatch between current visual backbones and the physical requirements of closed-loop control. While state-of-the-art vision encoders (including those used in VLAs) optimize for semantic invariance to stabilize classification, manipulation typically demands geometric sensitivity the ability to map millimeter-level pose shifts to predictable feature changes. Their discriminative objective creates a "blind spot" for fine-grained control, whereas generative diffusion models inherently encode geometric dependencies within their latent manifolds, encouraging the preservation of dense multi-scale spatial structure. However, directly deploying stochastic diffusion features for control is hindered by stochastic instability, inference latency, and representation drift during fine-tuning. To bridge this gap, we propose Robot-DIFT, a framework that decouples the source of geometric information from the process of inference via Manifold Distillation. By distilling a frozen diffusion teacher into a deterministic Spatial-Semantic Feature Pyramid Network (S2-FPN), we retain the rich geometric priors of the generative model while ensuring temporal stability, real-time execution, and robustness against drift. Pretrained on the large-scale DROID dataset, Robot-DIFT demonstrates superior geometric consistency and control performance compared to leading discriminative baselines, supporting the view that how a model learns to see dictates how well it can learn to act.
- Abstract(参考訳): 一般化可能なロボット操作における重要なボトルネックは、単にデータスケールやポリシーキャパシティではなく、現在の視覚バックボーンとクローズドループ制御の物理的要求との間の構造的ミスマッチである、という仮説を立てる。
最先端の視覚エンコーダ(VLAで使用されるものを含む)は、セマンティック不変性を最適化して分類を安定させるが、操作は通常、ミリレベルのポーズシフトを予測可能な特徴変化にマッピングする幾何学的感度を必要とする。
それらの識別的目的は、きめ細かい制御のための「盲点」を作り出す一方、生成的拡散モデルは本質的にその潜在多様体内の幾何学的依存関係を符号化し、密集した多スケール空間構造の保存を促進する。
しかし、制御のための確率拡散機能を直接展開することは、微調整中の確率不安定性、推論遅延、表現のドリフトによって妨げられる。
このギャップを埋めるために,マニフォールド蒸留による推論から幾何学的情報源を分離するフレームワークであるRobot-DIFTを提案する。
凍結拡散教師を決定論的空間意味的特徴ピラミッドネットワーク(S2-FPN)に蒸留することにより、時間的安定性、リアルタイム実行、ドリフトに対する堅牢性を確保しつつ、生成モデルの豊富な幾何学的先行性を維持できる。
大規模なDROIDデータセットに基づいてトレーニングされたRobot-DIFTは、主要な差別的ベースラインよりも優れた幾何学的整合性と制御性能を示し、モデルがどのように学習して、どのように振舞うかを判断するかをサポートする。
関連論文リスト
- Adaptive Diffusion Posterior Sampling for Data and Model Fusion of Complex Nonlinear Dynamical Systems [1.9800280967139285]
カオス・高次元非線形力学系の高忠実度数値シミュレーションは計算コストが高い。
このような系のほとんどの代理モデルは決定論的であり、例えば、ニューラル作用素が関与する場合である。
この研究は、生成機械学習を利用した代理モデリングの定式化を提案する。
論文 参考訳(メタデータ) (2026-03-13T04:11:37Z) - Shape Control of a Planar Hyper-Redundant Robot via Hybrid Kinematics-Informed and Learning-based Approach [42.55947704321053]
ハイパー冗長ロボットは、厳密で非構造的な環境での操作をうまく行うことができる。
到達可能な作業空間を拡張するために,多段式フレキシブルラック作動型平面ロボットを開発した。
本研究では,SpatioCoupledNet というハイブリッドキネマティクス・インフォームド・学習型形状制御手法を提案する。
論文 参考訳(メタデータ) (2026-03-11T04:35:06Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement [37.77903164878976]
TRACER は Texture-Robust Affordance Chain-of- Thought with dEformable-object Refinement framework である。
セマンティック推論から外見が損なわれ、物理的に一貫した機能領域の洗練まで、階層横断的なマッピングを提供する。
Fine-AGDDO15データセットと実世界のロボットプラットフォームで実施された実験は、TRACERが精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2026-01-28T03:12:18Z) - SourceNet: Interpretable Sim-to-Real Inference on Variable-Geometry Sensor Arrays for Earthquake Source Inversion [7.936803576241796]
SourceNetはTransformerベースのフレームワークで、任意のジオメトリをモデル化するためのフレキシブルなセットとしてセンサアレイを扱う。
10万の合成イベントを事前トレーニングし、2,000の現実世界イベントを微調整することで、SourceNetは保持された実データに対する最先端の精度を達成する。
論文 参考訳(メタデータ) (2026-01-09T21:42:28Z) - Simulating Distribution Dynamics: Liquid Temporal Feature Evolution for Single-Domain Generalized Object Detection [58.25418970608328]
Single-Domain Generalized Object Detection (Single-DGOD)は、あるソースドメインで訓練された検出器を複数の未知のドメインに転送することを目的としている。
シングルDGODの既存の方法は通常、データの多様性を拡大するために離散的なデータ拡張や静的摂動法に依存している。
そこで本研究では,ソース領域から潜伏分布のシミュレーションに至るまでの機能の進化をシミュレートする手法を提案する。
論文 参考訳(メタデータ) (2025-11-13T03:10:39Z) - Registration is a Powerful Rotation-Invariance Learner for 3D Anomaly Detection [64.0168648353038]
ポイントクラウドデータにおける3次元異常検出は、高い信頼性で構造欠陥を特定することを目的として、産業品質管理に不可欠である。
現在のメモリバンクベースの手法は、しばしば一貫性のない特徴変換と限定的な識別能力に悩まされる。
本稿では、ポイントクラウド登録とメモリベース異常検出の目的を統合した、登録による回転不変の特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-19T14:56:38Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。