論文の概要: RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models
- arxiv url: http://arxiv.org/abs/2603.07949v2
- Date: Thu, 12 Mar 2026 03:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.084187
- Title: RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models
- Title(参考訳): RAPID: 異なるVLAモデルに対する冗長性と互換性を考慮したエッジクラウド分割推論
- Authors: Zihao Zheng, Sicheng Tian, Hangyu Cao, Chenyue Li, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Guojie Luo, Xiang Chen,
- Abstract要約: 視覚言語行動(VLA)モデルは、インテリジェンスにおいて主流であるが、高い推論コストに直面している。
RAPIDと呼ばれる新しいエッジクラウド協調型(ECC)推論フレームワークを提案する。
実験では、最大1.73倍のスピードアップを達成でき、オーバーヘッドはわずか5%である。
- 参考スコア(独自算出の注目度): 13.258542341980748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Action (VLA) models are mainstream in embodied intelligence but face high inference costs. Edge-Cloud Collaborative (ECC) inference offers an effective fix by easing edge-device computing pressure to meet real-time needs. However, existing ECC frameworks are suboptimal for VLA models due to two challenges: (1) Mainstream environment-oriented edge-cloud partitioning methods are susceptible to interference from visual noise; (2) Existing edge-cloud partitioning methods overlook the step-wise redundancy unique to embodied tasks, thereby disrupting the physical continuity of motion. To address these issues, we propose a novel ECC inference framework, termed RAPID. Specifically, we developed an implementation tailored to the proposed framework. Experiments demonstrate this achieves a speedup of up to 1.73x with only 5%~7% overhead.
- Abstract(参考訳): 視覚言語行動(VLA)モデルは、インテリジェンスにおいて主流であるが、高い推論コストに直面している。
Edge-Cloud Collaborative (ECC)推論は、エッジデバイスコンピューティングプレッシャーを緩和して、リアルタイムのニーズを満たすことで、効果的な修正を提供する。
しかしながら,既存のECCフレームワークはVLAモデルに最適である。1) 主流環境指向のエッジクラウドパーティショニング手法は視覚ノイズからの干渉を受けやすい,2) 既存のエッジクラウドパーティショニング手法は,実施タスクに特有のステップワイド冗長性を見落とし,運動の物理的連続性を損なう,という2つの課題がある。
これらの問題に対処するために、RAPIDと呼ばれる新しいECC推論フレームワークを提案する。
具体的には,提案フレームワークに適した実装を開発した。
実験では、最大1.73倍のスピードアップを達成でき、オーバーヘッドは5%から7%程度である。
関連論文リスト
- Efficient Onboard Vision-Language Inference in UAV-Enabled Low-Altitude Economy Networks via LLM-Enhanced Optimization [61.55616421408666]
低高度経済ネットワーク(LAENets)は、航空監視、環境検知、セマンティックデータ収集など、様々な応用を可能にしている。
オンボードビジョン(VLM)は、リアルタイムな推論を提供するが、オンボードの動的ネットワーク条件は限られている。
動的LEENet条件下での通信効率を向上させるUAV対応LEENetシステムを提案する。
論文 参考訳(メタデータ) (2025-10-11T05:11:21Z) - SCING:Towards More Efficient and Robust Person Re-Identification through Selective Cross-modal Prompt Tuning [17.104905795008555]
Selective Cross-modal Prompt Tuning (SCING) というフレームワークを提案する。
我々のフレームワークは、効率的な推論を維持しながら重いアダプタを排除し、性能と計算オーバーヘッドの最適なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-01T07:21:31Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。
本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。
提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文 参考訳(メタデータ) (2025-06-11T18:34:57Z) - Edge-First Language Model Inference: Models, Metrics, and Tradeoffs [0.7980273012483663]
本研究は、単一エッジデバイス上でのSLM機能の詳細なベンチマークから始まる、エッジとクラウドのデプロイメント間の相互作用について検討する。
エッジ推論が低コストで同等のパフォーマンスを提供するシナリオや、スケーラビリティやモデルキャパシティの制限によりクラウドのフォールバックが不可欠になるシナリオを特定します。
プラットフォームレベルの比較と設計の洞察を,一様かつ適応的なLM推論システム構築のために提案する。
論文 参考訳(メタデータ) (2025-05-22T10:43:00Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - A-FedPD: Aligning Dual-Drift is All Federated Primal-Dual Learning Needs [57.35402286842029]
本稿では,グローバルクライアントとローカルクライアントの仮想二重配向を構成する新しいアラインドデュアルデュアル(A-FedPD)手法を提案する。
本稿では,A-FedPD方式の非集中型セキュリティコンセンサスに対する効率を包括的に分析する。
論文 参考訳(メタデータ) (2024-09-27T17:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。