Fugu-MT 論文翻訳(概要): DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

論文の概要: DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2603.07904v1
Date: Mon, 09 Mar 2026 02:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.355392
Title: DyQ-VLA: Temporal-Dynamic-Aware Quantization for Embodied Vision-Language-Action Models
Title（参考訳）: DyQ-VLA: 身体的視覚-言語-行動モデルのための時間動的認識量子化
Authors: Zihao Zheng, Hangyu Cao, Sicheng Tian, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen,
Abstract要約: 本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのための動的量子化フレームワークであるDyQ-VLAを提案する。具体的には、感度対応スイッチング戦略は、リアルタイムキネマティックプロキシを利用してビット幅スイッチをトリガーし、キネマティック誘導モジュールは最適なビット幅を動的に割り当てる。実験の結果、DyQ-VLAは元のメモリフットプリントの30.9%しか必要とせず、元のパフォーマンスの99.5%を維持し、シミュレーションは1.49倍、実世界のスピードアップは1.43倍であることがわかった。
参考スコア（独自算出の注目度）: 13.432225157873757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models are dominant in embodied intelligence but are constrained by inference overheads. While model quantization alleviates these bottlenecks for edge deployment, static quantization approaches remain suboptimal for VLAs due to two critical challenges: (1) Temporal-dynamic sensitivity, where fixed precision wastes resources by ignoring stage-varying error tolerances; and (2) Real-time allocation, where identifying real-time sensitivity to guide bit allocation remains unsolved. To address these challenges, we propose DyQ-VLA, a dynamic quantization framework for VLAs. Specifically, a sensitivity-aware switching strategy leverages real-time kinematic proxies to trigger the bit-width switch, while a kinematic-guided module dynamically allocates the optimal bit-width. Experiments show that DyQ-VLA requires only 30.9% of the original memory footprint while maintaining 99.5% of its original performance, achieving 1.49x simulation and up to 1.43x real-world speedups.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、インボディードインテリジェンスにおいて支配的であるが、推論オーバーヘッドによって制約されている。モデル量子化はエッジ配置のボトルネックを緩和するが,静的量子化アプローチはVLAにとって重要な2つの課題により最適に保たれている。これらの課題に対処するため,VLAのための動的量子化フレームワークであるDyQ-VLAを提案する。具体的には、感度対応スイッチング戦略は、リアルタイムキネマティックプロキシを利用してビット幅スイッチをトリガーし、キネマティック誘導モジュールは最適なビット幅を動的に割り当てる。実験の結果、DyQ-VLAは元のメモリフットプリントの30.9%しか必要とせず、元のパフォーマンスの99.5%を維持し、シミュレーションは1.49倍、実世界のスピードアップは1.43倍であることがわかった。

関連論文リスト

QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models [21.01470580488428]
視覚言語アクション(VLA)モデルは、エンボディエージェントの認識、言語、制御を統一する。トレーニング不要なポストトレーニング量子化フレームワークQuantVLAを紹介する。これはVLAシステムにおける最初のPTQアプローチであり、拡散トランスフォーマー(DiT)アクションヘッドの定量化に成功した最初の方法である。
論文参考訳（メタデータ） (2026-02-23T19:55:54Z)
Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。 GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。 LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文参考訳（メタデータ） (2026-02-22T15:39:34Z)
QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization [29.21308068128823]
具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。我々の研究は、ロボット工学におけるビジョン・ランゲージ・アクションモデルを圧縮するための、新しい原則の基盤を確立する。
論文参考訳（メタデータ） (2026-02-03T17:43:45Z)
LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文参考訳（メタデータ） (2026-02-03T06:53:19Z)
DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation [52.83157499300261]
時間的推論と閉ループ適応を統合した動的オブジェクト操作のフレームワークであるDynamicVLAを提案する。我々は、自動データ収集パイプラインでスクラッチから構築されたDynamic Object Manipulationベンチマークを紹介します。広範囲な評価は、応答速度、知覚、一般化の顕著な改善を示している。
論文参考訳（メタデータ） (2026-01-29T18:59:51Z)
SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文参考訳（メタデータ） (2025-06-15T05:04:17Z)
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文参考訳（メタデータ） (2025-06-11T18:34:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。