論文の概要: VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
- arxiv url: http://arxiv.org/abs/2510.05213v1
- Date: Mon, 06 Oct 2025 18:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.923317
- Title: VER: Vision Expert Transformer for Robot Learning via Foundation Distillation and Dynamic Routing
- Title(参考訳): VER:ファンデーション蒸留と動的ルーティングによるロボット学習のためのビジョンエキスパートトランスフォーマー
- Authors: Yixiao Wang, Mingxiao Huo, Zhixuan Liang, Yushi Du, Lingfeng Sun, Haotian Lin, Jinghuan Shang, Chensheng Peng, Mohit Bansal, Mingyu Ding, Masayoshi Tomizuka,
- Abstract要約: ロボット学習のためのビジョンエキスパートトランスフォーマーであるVERを提案する。
プレトレーニング中、VERは複数のVFMをビジョンエキスパートライブラリに蒸留する。
そして、タスク関連の専門家を動的に選択するために、軽量なルーティングネットワークのみを微調整する。
- 参考スコア(独自算出の注目度): 89.48383845451717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained vision foundation models (VFMs) advance robotic learning via rich visual representations, yet individual VFMs typically excel only in specific domains, limiting generality across tasks. Distilling multiple VFMs into a unified representation for policy can mitigate this limitation but often yields inflexible task-specific feature selection and requires costly full re-training to incorporate robot-domain knowledge. We propose VER, a Vision Expert transformer for Robot learning. During pretraining, VER distills multiple VFMs into a vision expert library. It then fine-tunes only a lightweight routing network (fewer than 0.4% of parameters) to dynamically select task-relevant experts from the pretrained library for downstream robot tasks. We further introduce Patchwise Expert Routing with Curriculum Top-K Annealing to improve both flexibility and precision of dynamic expert selection. Moreover, VER supports parameter-efficient finetuning for scalable expert utilization and adaptive robot-domain knowledge integration. Across 17 diverse robotic tasks and multiple policy heads, VER achieves state-of-the-art performance. We find that VER reduces large-norm outliers in task-irrelevant regions (e.g., background) and concentrates on task-critical regions. Visualizations and codes can be found in https://yixiaowang7.github.io/ver_page/.
- Abstract(参考訳): 事前訓練された視覚基礎モデル(VFM)は、豊かな視覚表現を通してロボット学習を進めるが、個々のVFMは通常特定の領域でのみ排他的であり、タスク間の一般性を制限する。
複数のVFMをポリシーの統一表現に拡張することは、この制限を緩和することができるが、しばしば柔軟性のないタスク固有の特徴選択をもたらし、ロボットドメインの知識を組み込むのにコストがかかる。
ロボット学習のためのビジョンエキスパートトランスフォーマーであるVERを提案する。
プレトレーニング中、VERは複数のVFMをビジョンエキスパートライブラリに蒸留する。
次に、ダウンストリームロボットタスクのためのトレーニング済みライブラリからタスク関連の専門家を動的に選択するために、軽量なルーティングネットワーク(パラメータの0.4%未満)のみを微調整する。
さらにPatchwise Expert Routing with Curriculum Top-K Annealingを導入し、動的専門家選択の柔軟性と精度を改善する。
さらに、VERは、スケーラブルな専門家利用と適応型ロボットドメイン知識統合のためのパラメータ効率の微調整をサポートする。
17の多様なロボットタスクと複数のポリシーヘッドで、VERは最先端のパフォーマンスを達成する。
VERはタスク非関連領域(例えば、バックグラウンド)における大きなノームアウトレイラを減らし、タスククリティカル領域に集中する。
視覚化とコードはhttps://yixiaowang7.github.io/ver_page/.comで見ることができる。
関連論文リスト
- UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [32.83715417294052]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining [28.504762473732296]
本稿では,タスク非依存のビジュモータトラジェクトリから学習するトランスフォーマーに基づくアーキテクチャを提案する。
特に、コンプレックスのトランスフォーマーにおける相対的な位置エンコーディングを使用することは、人間が編集したデモから学習する低データ体制において大いに役立ちます。
論文 参考訳(メタデータ) (2023-03-15T17:31:37Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。