論文の概要: Device-Conditioned Neural Architecture Search for Efficient Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.10170v1
- Date: Sat, 11 Apr 2026 11:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.887962
- Title: Device-Conditioned Neural Architecture Search for Efficient Robotic Manipulation
- Title(参考訳): 効率的なロボットマニピュレーションのためのデバイス記述型ニューラルアーキテクチャ探索
- Authors: Yiming Wu, Huan Wang, Zhenghao Chen, Ge Yuan, Dong Xu,
- Abstract要約: 我々はtextbfDevice-textbfConditioned textbfQuantization-textbfFor-textbfAll (DC-QFA) という統合フレームワークを提案する。
DC-QFAは、デバイス条件の量子化対応トレーニングとハードウェア制約のあるアーキテクチャサーチによるデプロイメントの取り組みを改善している。
- 参考スコア(独自算出の注目度): 16.017058636822025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing complexity of visuomotor policies poses significant challenges for deployment with heterogeneous robotic hardware constraints. However, most existing model-efficient approaches for robotic manipulation are device- and model-specific, lack generalizability, and require time-consuming per-device optimization during the adaptation process. In this work, we propose a unified framework named \textbf{D}evice-\textbf{C}onditioned \textbf{Q}uantization-\textbf{F}or-\textbf{A}ll (DC-QFA) which amortizes deployment effort with the device-conditioned quantization-aware training and hardware-constrained architecture search. Specifically, we introduce a single supernet that spans a rich design space over network architectures and mixed-precision bit-widths. It is optimized with latency- and memory-aware regularization, guided by per-device lookup tables. With this supernet, for each target platform, we can perform a once-for-all lightweight search to select an optimal subnet without any per-device re-optimization, which enables more generalizable deployment across heterogeneous hardware, and substantially reduces deployment time. To improve long-horizon stability under low precision, we further introduce multi-step on-policy distillation to mitigate error accumulation during closed-loop execution. Extensive experiments on three representative policy backbones, such as DiffusionPolicy-T, MDT-V, and OpenVLA-OFT, demonstrate that our DC-QFA achieves $2\text{-}3\times$ acceleration on edge devices, consumer-grade GPUs, and cloud platforms, with negligible performance drop in task success. Real-world evaluations on an Inovo robot equipped with a force/torque sensor further validates that our low-bit DC-QFA policies maintain stable, contact-rich manipulation even under severe quantization.
- Abstract(参考訳): ビジュモータポリシの複雑さの増大は、異種ロボットハードウェア制約によるデプロイメントに重大な課題をもたらす。
しかしながら、ロボット操作における既存のモデル効率のアプローチは、デバイスとモデル固有のものであり、一般化性に欠けており、適応プロセス中にデバイス毎の最適化に時間を要する。
本研究では,デバイス条件付き量子化対応トレーニングとハードウェア制約アーキテクチャサーチにより,デプロイメントの労力を節約する統合フレームワークである \textbf{D}evice-\textbf{C}onditioned \textbf{Q}uantization-\textbf{F}or-\textbf{A}ll (DC-QFA) を提案する。
具体的には、ネットワークアーキテクチャと混合精度ビット幅にまたがる、豊富な設計空間にまたがる単一のスーパーネットを導入する。
デバイス毎のルックアップテーブルによってガイドされる、レイテンシとメモリ対応の正規化に最適化されている。
このスーパーネットによって、各ターゲットプラットフォームに対して、デバイス毎の再最適化なしに最適なサブネットを選択するための、一度限りの軽量検索を実行できます。
低精度で長時間の水平安定性を向上させるため,閉ループ実行時の誤差蓄積を軽減するため,多段階のオンライン蒸留も導入する。
DiffusionPolicy-T, MDT-V, OpenVLA-OFTといった3つの代表的なポリシーバックボーンに関する大規模な実験では、当社のDC-QFAが、エッジデバイス、コンシューマグレードのGPU、クラウドプラットフォーム上でのアクセラレーションを2ドル(約2万2000円)で達成し、タスク成功の無視可能なパフォーマンス低下を実証しています。
力/トルクセンサを備えたInovoロボットの実世界評価は、我々の低ビットDC-QFAポリシーが厳密な量子化の下でも安定したコンタクトリッチな操作を維持していることを示す。
関連論文リスト
- LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics [0.6119773373677944]
本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論のための,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを紹介する。
提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化とGPU加速推論を組み合わせたものである。
我々の構成では、LiteVLA-Edgeは、完全にオフラインで動作しながら、150.5,ms(約6.6,Hz)の平均エンドツーエンドランタイムを達成する。
論文 参考訳(メタデータ) (2026-03-03T03:20:52Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。