Fugu-MT 論文翻訳(概要): KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

論文の概要: KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models

arxiv url: http://arxiv.org/abs/2603.01581v1
Date: Mon, 02 Mar 2026 08:12:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.755039
Title: KERV: Kinematic-Rectified Speculative Decoding for Embodied VLA Models
Title（参考訳）: KERV:Kinematic-Rectified Speculative Decoding for Embodied VLA Models
Authors: Zihao Zheng, Zhihao Mao, Maoliang Li, Jiayu Chen, Xinhao Sun, Zhaobo Zhang, Donggang Cao, Hong Mei, Xiang Chen,
Abstract要約: 我々はKERVというキネマティック修正型SDフレームワークを開発した。 KERVは27%37%の加速を達成するが、成功率の損失はほとんどない。
参考スコア（独自算出の注目度）: 11.326305992898776
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models build a token-domain robot control paradigm, yet suffer from low speed. Speculative Decoding (SD) is an optimization strategy that can boost inference speed. Two key issues emerge when integrating VLA and SD: first, SD relies on re-inference to address token errors, which is computationally expensive; second, to mitigate token errors, the acceptance threshold in SD requires careful adjustment. Existing works fail to address the above two issues effectively. Meanwhile, as the bridge between AI and the physical world, existing embodied intelligence has overlooked the application of robotic kinematics. To address these issues, we innovatively combine token-domain VLA models with kinematic-domain prediction for SD, proposing a kinematic-rectified SD framework named KERV. We employ a kinematics-based Kalman Filter to predict actions and compensate for SD errors, avoiding costly re-inference. Moreover, we design a kinematics-based adjustment strategy to dynamically rectify the acceptance threshold, addressing the difficulty of threshold determination. Experimental results across diverse tasks and environments demonstrate that KERV achieves 27%~37% acceleration with nearly no Success Rate loss.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルはトークンドメインのロボット制御パラダイムを構築するが、低速度に悩まされる。投機的復号化(SD)は推論速度を向上させる最適化戦略である。 VLAとSDを統合する際に2つの重要な問題が発生する: 第一に、SDはトークンエラーに対処するために再推論に依存し、第二に、トークンエラーを軽減するために、SDの受け入れ閾値は慎重に調整する必要がある。既存の作業は上記の2つの問題に効果的に対処することができない。一方、AIと物理世界の橋渡しとして、既存の具体的知性はロボットキネマティクスの応用を見落としている。これらの問題に対処するために、トークンドメインVLAモデルとSDのキネマティックドメイン予測を併用し、KERVというキネマティック修正SDフレームワークを提案する。我々はキネマティクスに基づくカルマンフィルタを用いてアクションを予測し、SDエラーを補償し、コストのかかる再推論を回避する。さらに,アクセプション閾値を動的に補正するキネマティクスに基づく調整戦略を設計し,しきい値決定の難しさに対処する。様々なタスクや環境にわたる実験結果から、KERVは27%～37%の加速を実現し、成功率の損失はほとんどないことが示された。

関連論文リスト

QASA: Quality-Guided K-Adaptive Slot Attention for Unsupervised Object-Centric Learning [80.82392186401354]
スロットアテンション(Slot Attention)は、シーン内の異なるオブジェクトを一連の"スロット"にバインドするアプローチである。従来のK適応法はスロット結合の品質を明示的に制限しない。我々はQASA(Quality-Guided K-Adaptive Slot Attention)を提案する。
論文参考訳（メタデータ） (2026-01-19T10:42:07Z)
Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。 MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文参考訳（メタデータ） (2026-01-08T17:39:35Z)
Content Adaptive based Motion Alignment Framework for Learned Video Compression [72.13599533975413]
本稿では,コンテンツ適応型モーションアライメントフレームワークを提案する。まず、粗いオフセット予測とマスク変調により動き補償を洗練させる2段階の流動誘導変形防止機構を導入する。第2に,基準品質に基づいて歪み重みを調整するマルチ参照品質認識戦略を提案する。第3に,スムーズな動き推定を得るために,フレームを大きさと解像度でダウンサンプルするトレーニングフリーモジュールを統合する。
論文参考訳（メタデータ） (2025-12-15T02:51:47Z)
DeepThinkVLA: Enhancing Reasoning Capability of Vision-Language-Action Models [51.76664843721462]
DeepThinkVLAはVision-Language-Actionモデルのための新しいアーキテクチャである。因果的注意を伴うシーケンシャルCoTを生成し、双方向の注意に切り替え、アクションベクトルを高速に復号する。 LIBEROベンチマークで97.0%の成功率を達成した。
論文参考訳（メタデータ） (2025-10-31T05:26:16Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Fast and Efficient Transformer-based Method for Bird's Eye View Instance Prediction [0.8458547573621331]
本稿では,単純化されたパラダイムに基づく新しいBEVインスタンス予測アーキテクチャを提案する。提案システムは,パラメータ数と推定時間を削減することを目的として,速度を優先する。提案されたアーキテクチャの実装は、PyTorchバージョン2.1のパフォーマンス改善に最適化されている。
論文参考訳（メタデータ） (2024-11-11T10:35:23Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
MotionHint: Self-Supervised Monocular Visual Odometry with Motion Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文参考訳（メタデータ） (2021-09-14T15:35:08Z)
Domain Adaptive Robotic Gesture Recognition with Unsupervised Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文参考訳（メタデータ） (2021-03-06T09:10:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。