Fugu-MT 論文翻訳(概要): Shallow-π: Knowledge Distillation for Flow-based VLAs

論文の概要: Shallow-π: Knowledge Distillation for Flow-based VLAs

arxiv url: http://arxiv.org/abs/2601.20262v1
Date: Wed, 28 Jan 2026 05:16:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.972553
Title: Shallow-π: Knowledge Distillation for Flow-based VLAs
Title（参考訳）: Shallow-π:フローベースVLAの知識蒸留
Authors: Boseong Jeon, Yunho Choi, Taehan Kim,
Abstract要約: 本稿では,VLMバックボーンとフローベースアクションヘッドの両方のトランスフォーマー深さを積極的に低減する知識蒸留フレームワークであるShallow-piを提案する。 Shallow-piは標準的なベンチマークで1%未満の成功率で2倍以上の高速化を実現している。複数のロボットプラットフォームにまたがるJetson OrinとJetson Thorの産業規模での実世界の実験を通して、我々のアプローチを検証する。
参考スコア（独自算出の注目度）: 4.329496613618976
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.
Abstract（参考訳）: リアルタイムロボットの展開に対する需要が高まるにつれ、ビジョン言語アクション(VLA)モデルに対する高速かつオンデバイスな推論が求められている。 VLA文学の中では、視覚的トークンプルーニングのようなトークンレベルで効率性が広く研究されている。対照的に,システマティックトランスフォーマー層低減は限定的であり,私たちの知る限り,知識蒸留下でのフローベースVLAモデルについては検討されていない。本研究では,VLMバックボーンとフローベースアクションヘッドの両方のトランスフォーマー深さを積極的に低減し,モデルを18層から6層に圧縮する,原理的知識蒸留フレームワークであるShallow-piを提案する。 Shallow-piは標準のベンチマークで1%未満の成功率で2倍以上の高速化を実現し、VLAモデルの最先端性能を確立している。我々は,Jetson Orin と Jetson Thor の産業用実世界の実験を通じて,ヒューマノイドシステムを含む複数のロボットプラットフォーム上で,複雑な動的操作シナリオにおけるアプローチを検証する。

関連論文リスト

Robotic VLA Benefits from Joint Learning with Motion Image Diffusion [114.60268819583017]
VLA(Vision-Language-Action)モデルは、マルチモーダルな観察と指示を直接行動にマッピングすることで、ロボット操作において顕著な進歩を遂げた。動き推論機能を備えたVLAモデルを強化する新しい戦略である動き画像拡散を用いた共同学習を提案する。シミュレーションと実世界の両方の環境での実験により、モーション画像拡散による共同学習がpiシリーズVLAの成功率を97.5%に向上させることが示された。
論文参考訳（メタデータ） (2025-12-19T19:07:53Z)
NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文参考訳（メタデータ） (2025-08-23T00:02:15Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文参考訳（メタデータ） (2024-09-19T07:10:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。