論文の概要: On-Device Diffusion Transformer Policy for Efficient Robot Manipulation
- arxiv url: http://arxiv.org/abs/2508.00697v1
- Date: Fri, 01 Aug 2025 15:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.926068
- Title: On-Device Diffusion Transformer Policy for Efficient Robot Manipulation
- Title(参考訳): 効率的なロボットマニピュレーションのためのオンデバイス拡散変換器ポリシー
- Authors: Yiming Wu, Huan Wang, Zhenghao Chen, Jianxin Pang, Dong Xu,
- Abstract要約: Diffusion Policiesには、模倣学習によるロボット操作タスクが大幅に進歩している。
リソース制約のあるモバイルプラットフォームへの彼らの適用は、計算の非効率性と広範なメモリフットプリントのため、依然として困難である。
我々は,モバイルデバイス上でリアルタイムにデプロイするためのDiffusion Policiesを高速化する新しいフレームワークであるLightDPを提案する。
- 参考スコア(独自算出の注目度): 26.559546714450324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion Policies have significantly advanced robotic manipulation tasks via imitation learning, but their application on resource-constrained mobile platforms remains challenging due to computational inefficiency and extensive memory footprint. In this paper, we propose LightDP, a novel framework specifically designed to accelerate Diffusion Policies for real-time deployment on mobile devices. LightDP addresses the computational bottleneck through two core strategies: network compression of the denoising modules and reduction of the required sampling steps. We first conduct an extensive computational analysis on existing Diffusion Policy architectures, identifying the denoising network as the primary contributor to latency. To overcome performance degradation typically associated with conventional pruning methods, we introduce a unified pruning and retraining pipeline, optimizing the model's post-pruning recoverability explicitly. Furthermore, we combine pruning techniques with consistency distillation to effectively reduce sampling steps while maintaining action prediction accuracy. Experimental evaluations on the standard datasets, \ie, PushT, Robomimic, CALVIN, and LIBERO, demonstrate that LightDP achieves real-time action prediction on mobile devices with competitive performance, marking an important step toward practical deployment of diffusion-based policies in resource-limited environments. Extensive real-world experiments also show the proposed LightDP can achieve performance comparable to state-of-the-art Diffusion Policies.
- Abstract(参考訳): Diffusion Policiesには、模倣学習によるロボット操作タスクが大幅に進歩しているが、計算の非効率性と広範なメモリフットプリントのため、リソースに制約のあるモバイルプラットフォームへの応用は依然として困難である。
本稿では,モバイルデバイス上でのリアルタイムデプロイメントを実現するために,Diffusion Policiesを高速化する新しいフレームワークであるLightDPを提案する。
LightDPは2つのコア戦略によって計算ボトルネックに対処する。
まず、既存の拡散ポリシーアーキテクチャについて広範な計算分析を行い、遅延の主要因として認知ネットワークを同定する。
従来の刈り取り方式に典型的な性能劣化を克服するため, 統一型刈り取り・再訓練パイプラインを導入し, モデルの性能回復性を明示的に最適化した。
さらに, プルーニング技術と不整合蒸留を併用して, 動作予測精度を維持しつつ, サンプリング工程を効果的に削減する。
標準データセットである \ie, PushT, Robomimic, CALVIN, および LIBERO に関する実験的評価は,LightDP が競争力のあるモバイルデバイス上でリアルタイムなアクション予測を実現し,リソース制限された環境における拡散ベースのポリシの実践的展開に向けた重要な一歩であることを実証している。
大規模な実世界の実験は、提案されたLightDPが最先端の拡散ポリシーに匹敵する性能を達成することも示している。
関連論文リスト
- Real-Time Iteration Scheme for Diffusion Policy [23.124189676943757]
本稿では,RTI(Real-Time Iteration)スキームにインスパイアされた新しい手法を導入し,推論を高速化する。
本稿では,ロボット操作における把握などの離散的な動作を効果的に扱うためのスケーリング手法を提案する。
提案方式は蒸留や政策の再設計を必要とせず,実行時の計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2025-08-07T13:49:00Z) - Lightweight Task-Oriented Semantic Communication Empowered by Large-Scale AI Models [66.57755931421285]
大規模人工知能(LAI)モデルは、リアルタイム通信シナリオにおいて重大な課題を提起する。
本稿では,LAIモデルから知識を抽出・凝縮するために知識蒸留(KD)技術を活用することを提案する。
本稿では,反復推論の必要性を排除したプレストア圧縮機構を備えた高速蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-16T08:42:16Z) - LeanTTA: A Backpropagation-Free and Stateless Approach to Quantized Test-Time Adaptation on Edge Devices [13.355021314836852]
本稿では、エッジデバイスに適した量子化テスト時間適応のための、バックプロパゲーションフリーでステートレスな新しいフレームワークであるLeanTTAを紹介する。
バックプロパゲーションなしで正規化統計を動的に更新することで計算コストを最小化する。
我々は,センサのモダリティにまたがる枠組みを検証し,最先端のTTA手法よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-20T06:27:09Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Efficient Text-driven Motion Generation via Latent Consistency Training [21.348658259929053]
非線形逆拡散軌道を解くための動き潜時整合トレーニングフレームワーク(MLCT)を提案する。
これらの拡張を組み合わせることで、非画素モダリティおよび潜在表現空間における安定かつ一貫性のあるトレーニングを実現する。
論文 参考訳(メタデータ) (2024-05-05T02:11:57Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - Accelerating Deep Reinforcement Learning With the Aid of Partial Model:
Energy-Efficient Predictive Video Streaming [97.75330397207742]
深層強化学習を用いて,モバイルネットワーク上でのエネルギー効率の高いビデオストリーミングのための予測電力割り当てを考案した。
連続状態と行動空間を扱うために、我々はDeep Deterministic Policy gradient (DDPG)アルゴリズムを利用する。
シミュレーションの結果,提案手法は完全大規模チャネル予測に基づいて導出される最適方針に収束することが示された。
論文 参考訳(メタデータ) (2020-03-21T17:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。