論文の概要: X-Distill: Cross-Architecture Vision Distillation for Visuomotor Learning
- arxiv url: http://arxiv.org/abs/2601.11269v1
- Date: Fri, 16 Jan 2026 13:15:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.501406
- Title: X-Distill: Cross-Architecture Vision Distillation for Visuomotor Learning
- Title(参考訳): X-Distill: 視覚学習のためのクロスアーキテクチャビジョン蒸留
- Authors: Maanping Shao, Feihong Zhang, Gu Zhang, Baiye Cheng, Zhengrong Xue, Huazhe Xu,
- Abstract要約: Visuomotorのポリシーは、しばしばその強力な一般化能力のために、大きな事前訓練されたビジョントランスフォーマー(ViT)を利用する。
両アーキテクチャの強みを相乗化するための,単純かつ高効率な手法であるX-Distillを導入する。
我々のアプローチは、オフラインでクロスアーキテクチャの知識蒸留を伴い、大きな凍結したDINOv2教師の豊かな視覚表現をコンパクトなResNet-18学生に転送する。
- 参考スコア(独自算出の注目度): 31.894643265305476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visuomotor policies often leverage large pre-trained Vision Transformers (ViTs) for their powerful generalization capabilities. However, their significant data requirements present a major challenge in the data-scarce context of most robotic learning settings, where compact CNNs with strong inductive biases can be more easily optimized. To address this trade-off, we introduce X-Distill, a simple yet highly effective method that synergizes the strengths of both architectures. Our approach involves an offline, cross-architecture knowledge distillation, transferring the rich visual representations of a large, frozen DINOv2 teacher to a compact ResNet-18 student on the general-purpose ImageNet dataset. This distilled encoder, now endowed with powerful visual priors, is then jointly fine-tuned with a diffusion policy head on the target manipulation tasks. Extensive experiments on $34$ simulated benchmarks and $5$ challenging real-world tasks demonstrate that our method consistently outperforms policies equipped with from-scratch ResNet or fine-tuned DINOv2 encoders. Notably, X-Distill also surpasses 3D encoders that utilize privileged point cloud observations or much larger Vision-Language Models. Our work highlights the efficacy of a simple, well-founded distillation strategy for achieving state-of-the-art performance in data-efficient robotic manipulation.
- Abstract(参考訳): Visuomotorのポリシーは、しばしばその強力な一般化能力のために、大きな事前訓練されたビジョントランスフォーマー(ViT)を利用する。
しかし、その重要なデータ要件は、強い帰納バイアスを持つコンパクトCNNをより容易に最適化できる、ほとんどのロボット学習設定において、データスキャンのコンテキストにおいて大きな課題となる。
このトレードオフに対処するために,両アーキテクチャの強みを相乗化するための,単純かつ高効率な手法であるX-Distillを導入する。
我々のアプローチでは、オフラインでクロスアーキテクチャの知識蒸留を行い、大規模な凍結したDINOv2教師のリッチな視覚表現を汎用画像Netデータセット上のコンパクトなResNet-18学生に転送する。
この蒸留エンコーダは、現在では強力な視覚的先行性を備えており、ターゲット操作タスクの拡散ポリシーヘッドと共同で微調整される。
シュミレーションされた34ドルのベンチマークと5ドルの課題のある実世界のタスクに対する大規模な実験により、我々の手法は、最初からスクラッチされたResNetや細調整されたDINOv2エンコーダを備えたポリシーを一貫して上回っていることが示された。
特に、X-Distillは、特権的なポイントクラウド観測またははるかに大きなビジョンランゲージモデルを利用する3Dエンコーダを超越している。
我々の研究は、データ効率のロボット操作における最先端性能を達成するための、シンプルで十分に確立された蒸留戦略の有効性を強調した。
関連論文リスト
- Towards Efficient and Effective Multi-Camera Encoding for End-to-End Driving [54.85072592658933]
本稿では,自動運転における高ボリュームマルチカメラデータ処理の計算ボトルネックに対処する,効率的かつ効率的なシーンエンコーダFlexを提案する。
設計上,我々のアプローチは幾何学的非依存であり,明快な3次元帰納バイアスに頼ることなく,データから直接コンパクトなシーン表現を学習する。
我々の研究は、データ駆動型共同符号化戦略が将来の自動運転システムにおいて、よりスケーラブルで効率的かつ効果的な経路を提供することを示すために、3Dプリエントが不可欠であるという一般的な仮定に挑戦する。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - StaMo: Unsupervised Learning of Generalizable Robot Motion from Compact State Representation [56.996371714721995]
高度に圧縮された2つの状態表現を学習する教師なしの手法を提案する。
私たちの表現は効率的で解釈可能で、既存のVLAベースのモデルとシームレスに統合されます。
提案手法は,コンパクトな状態表現から一般化可能なロボットモーションを学習できることから,StaMoと命名する。
論文 参考訳(メタデータ) (2025-10-06T17:37:24Z) - Topology-Guided Knowledge Distillation for Efficient Point Cloud Processing [3.3903891679981593]
本研究は,高能力教師から軽量学生モデルへ知識を伝達する新しい蒸留フレームワークを導入する。
提案手法は,学生モデルの学習過程を選択的に導きながら,点雲の基底となる幾何学的構造を捉える。
本手法は,LiDARデータのみに基づいて訓練された知識蒸留技術における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-12T22:15:54Z) - ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models [39.520825264698374]
視覚変換器(ViT)は、グローバルな自己注意を通じて顕著な進歩を遂げてきたが、その二次的な複雑さは高解像度入力では禁止される可能性がある。
本稿では、リッチなViT表現を線形時間再帰型モデルに変換するクロスアーキテクチャ蒸留フレームワークであるViT-Linearizerについて述べる。
この結果から,RNNに基づく大規模視覚タスクの優れた実現可能性を示し,理論的効率性と実世界の実践とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2025-03-30T15:35:24Z) - Escaping The Big Data Paradigm in Self-Supervised Representation Learning [2.10796947080293]
SCOTTはMasked Image Modelingタスクと互換性のある浅いトークン化アーキテクチャである。
SCOTTは、視覚変換器(ViT)に畳み込み誘導バイアスを注入し、小規模のデータレシエーションにおけるその有効性を高める。
提案手法は,Oxford Flowers-102,Oxford IIIT Pets-37,ImageNet-100の3つの小型,標準的,きめ細かいデータセットに対して検証を行った。
論文 参考訳(メタデータ) (2025-02-25T10:21:49Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [88.85002707211777]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークはVFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出する。
このアライメントは、クロスモーダルな表現学習を促進し、2Dデータと3Dデータのセマンティック一貫性を高める。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。