論文の概要: AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation
- arxiv url: http://arxiv.org/abs/2604.24086v1
- Date: Mon, 27 Apr 2026 06:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.769281
- Title: AsyncShield: A Plug-and-Play Edge Adapter for Asynchronous Cloud-based VLA Navigation
- Title(参考訳): AsyncShield: 非同期クラウドベースのVLAナビゲーションのためのプラグインとプレイのエッジアダプタ
- Authors: Kai Yang, Zedong Chu, Yingnan Guo, Zhengbo Wang, Shichao Xie, Yanfen Shen, Xiaolong Wu, Xing Li, Mu Xu,
- Abstract要約: AsyncShieldは非同期ナビゲーションのためのプラグイン・アンド・プレイコントロールフレームワークである。
システムは拘束されたマルコフ決定プロセスを使用して、意図回復の忠実性と物理的安全性のバランスをとる。
AsyncShieldは軽量なプラグイン・アンド・プレイモジュールとして動作する。
- 参考スコア(独自算出の注目度): 21.033021862213825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-Language-Action (VLA) models have been demonstrated possessing strong zero-shot generalization for robot control, their massive parameter sizes typically necessitate cloud-based deployment. However, cloud deployment introduces network jitter and inference latency, which can induce severe spatiotemporal misalignment in mobile navigation under continuous displacement, so that the stale intents expressed in past ego frames may become spatially incorrect in the current frame and lead to collisions. To address this issue, we propose AsyncShield, a plug-and-play asynchronous control framework. AsyncShield discards traditional black-box time-series prediction in favor of a deterministic physical white-box spatial mapping. By maintaining a temporal pose buffer and utilizing kinematic transformations, the system accurately converts temporal lag into spatial pose offsets to restore the VLA's original geometric intent. To balance intent restoration fidelity and physical safety, the edge adaptation is formulated as a constrained Markov decision process (CMDP). Solved via the PPO-Lagrangian algorithm, a reinforcement learning adapter dynamically trades off between tracking the VLA intent and responding to high-frequency LiDAR obstacle avoidance hard constraints. Furthermore, benefiting from a standardized universal sub-goal interface, domain randomization, and perception-level adaptation via Collision Radius Inflation, AsyncShield operates as a lightweight, plug-and-play module. Simulation and real-world experiments demonstrate that, without fine-tuning any cloud-based foundation models, the framework exhibits zero-shot and robust generalization capabilities, effectively improving the success rate and physical safety of asynchronous navigation.
- Abstract(参考訳): Vision-Language-Action (VLA) モデルは、ロボット制御のための強力なゼロショットの一般化を持つが、その巨大なパラメータサイズは、通常、クラウドベースのデプロイメントを必要とする。
しかし、クラウド配置ではネットワークジッタと推論遅延が導入され、これは連続的な変位下で移動ナビゲーションの時空間的過誤を生じさせる可能性があるため、過去のエゴフレームで表現されたスタイルインテントが現在のフレームで空間的に誤りとなり、衝突につながる可能性がある。
この問題に対処するために、プラグアンドプレイの非同期制御フレームワークであるAsyncShieldを提案する。
AsyncShieldは、決定論的物理ホワイトボックス空間マッピングを好んで、伝統的なブラックボックスの時系列予測を捨てる。
時間的なポーズバッファを保持し、キネマティック変換を利用することにより、時間的なラグを空間的なポーズオフセットに正確に変換し、VLAの本来の幾何学的意図を復元する。
意図回復率と物理的安全性のバランスをとるために、エッジ適応は制約付きマルコフ決定過程(CMDP)として定式化される。
PPO-Lagrangianアルゴリズムによって解かれた強化学習アダプタは、VLAインテントの追跡と高周波LiDAR障害物回避ハード制約への応答の間で動的にトレードオフする。
さらに、標準化されたユニバーサルサブゴールインタフェース、ドメインランダム化、Collision Radius Inflationによる知覚レベルの適応により、AsyncShieldは軽量なプラグアンドプレイモジュールとして動作する。
シミュレーションと実世界の実験により、クラウドベースの基盤モデルを微調整することなく、このフレームワークはゼロショットで堅牢な一般化能力を示し、非同期ナビゲーションの成功率と物理的安全性を効果的に向上することを示した。
関連論文リスト
- DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文 参考訳(メタデータ) (2026-04-13T03:19:36Z) - Speculative Policy Orchestration: A Latency-Resilient Framework for Cloud-Robotic Manipulation [6.709418204725671]
クラウドロボティクスは、ロボットが高次元のモーションプランニングと推論をリモートサーバーにオフロードすることを可能にする。
高周波制御を必要とする継続的な操作のために、ネットワーク遅延とジッタはシステムを不安定にすることができる。
我々は,遅延耐性のクラウドエッジフレームワークである投機的ポリシーオーケストレーション(SPO)を提案する。
論文 参考訳(メタデータ) (2026-03-19T19:24:14Z) - TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events [37.273066799679135]
我々は,フレームとイベントの時間一貫性のある非同期融合を行うフレームワークであるTAPFormerを紹介した。
鍵となる革新は、離散フレーム間の時間的進化を明示的にモデル化する過渡的非同期融合機構である。
提案手法は既存のポイントトラッカーよりも優れており,しきい値内の平均画素誤差が28.2%向上している。
論文 参考訳(メタデータ) (2026-03-05T09:32:24Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - FRAIN to Train: A Fast-and-Reliable Solution for Decentralized Federated Learning [1.1510009152620668]
非同期学習(FL)は、データの局所性を維持しながら、分散クライアント間で協調的なモデルトレーニングを可能にする。
我々は、2つの重要なアイデアを取り入れることでこれらの制限を緩和する新しいFL手法であるFRAIN(Fast-and-Reliable AI Network)を導入する。
CNNイメージ分類モデルとTransformerベースの言語モデルによる実験では、FRAINはFedAvg、FedAsync、BRAINよりも安定的で堅牢な収束を実現している。
論文 参考訳(メタデータ) (2025-05-07T08:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。