論文の概要: Tiny, On-Device Decision Makers with the MiniConv Library
- arxiv url: http://arxiv.org/abs/2512.19726v1
- Date: Wed, 17 Dec 2025 00:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.598452
- Title: Tiny, On-Device Decision Makers with the MiniConv Library
- Title(参考訳): MiniConvライブラリによるデバイス上意思決定
- Authors: Carlos Purves,
- Abstract要約: 強化学習(RL)は大きな成果を上げているが、リソース制約されたエッジデバイスに視覚ポリシーをデプロイすることは依然として困難である。
本稿では,小さなオンデバイスエンコーダが各観測結果をリモートポリシヘッドに送信するコンパクトな特徴テンソルに変換する分割政治アーキテクチャを提案する。
我々は,NVIDIA Jetson Nano,Raspberry Pi 4B,Raspberry Pi Zero 2 Wを対象とし,学習結果の報告,持続負荷下でのデバイス上での実行動作,帯域幅形成時のエンドツーエンド決定レイテンシとスケーラビリティの測定を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has achieved strong results, but deploying visual policies on resource-constrained edge devices remains challenging due to computational cost and communication latency. Many deployments therefore offload policy inference to a remote server, incurring network round trips and requiring transmission of high-dimensional observations. We introduce a split-policy architecture in which a small on-device encoder, implemented as OpenGL fragment-shader passes for broad embedded GPU support, transforms each observation into a compact feature tensor that is transmitted to a remote policy head. In RL, this communication overhead manifests as closed-loop decision latency rather than only per-request inference latency. The proposed approach reduces transmitted data, lowers decision latency in bandwidth-limited settings, and reduces server-side compute per request, whilst achieving broadly comparable learning performance by final return (mean over the final 100 episodes) in single-run benchmarks, with modest trade-offs in mean return. We evaluate across an NVIDIA Jetson Nano, a Raspberry Pi 4B, and a Raspberry Pi Zero 2 W, reporting learning results, on-device execution behaviour under sustained load, and end-to-end decision latency and scalability measurements under bandwidth shaping. Code for training, deployment, and measurement is released as open source.
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) は大きな成果を上げているが, 資源制約されたエッジデバイスに視覚ポリシーをデプロイすることは, 計算コストと通信遅延のため, 依然として困難である。
したがって、多くのデプロイメントはポリシー推論をリモートサーバにオフロードし、ネットワークのラウンドトリップを発生させ、高次元の観測を必要とする。
本稿では,OpenGLのフラグメントシェーダとして実装された小さなオンデバイスエンコーダを広義のGPUサポートに導入し,各観測結果をリモートポリシヘッドに送信するコンパクトな機能テンソルに変換する分割政治アーキテクチャを提案する。
RLでは、この通信オーバーヘッドは、要求毎の推論レイテンシよりもクローズドループ決定レイテンシとして現れます。
提案手法は,送信データを削減するとともに,帯域幅制限設定における決定遅延を低減し,要求毎のサーバ側計算を低減し,一方,単一実行ベンチマークにおける最終リターン(最終100回以上)による学習性能をほぼ同等に向上し,平均リターンにおけるトレードオフを緩和する。
我々は,NVIDIA Jetson Nano,Raspberry Pi 4B,Raspberry Pi Zero 2 Wを対象とし,学習結果の報告,持続負荷下でのデバイス上での実行動作,帯域幅形成時のエンドツーエンド決定レイテンシとスケーラビリティの測定を行った。
トレーニング、デプロイメント、測定のためのコードはオープンソースとしてリリースされている。
関連論文リスト
- Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - FrankenSplit: Efficient Neural Feature Compression with Shallow Variational Bottleneck Injection for Mobile Edge Computing [5.815300670677979]
資源依存型圧縮モデルのための新しいフレームワークを導入し,非対称環境下での手法を広範囲に評価する。
提案手法は精度を低下させることなく最先端のSC法よりも60%低く,既存の標準のオフロードよりも16倍高速である。
論文 参考訳(メタデータ) (2023-02-21T14:03:22Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Joint Device Scheduling and Resource Allocation for Latency Constrained
Wireless Federated Learning [26.813145949399427]
FL(Federated Learning)では、デバイスがローカルモデルの更新を無線チャネル経由でアップロードする。
モデル精度を最大化するために,共同装置スケジューリングと資源配分ポリシーを提案する。
実験の結果,提案手法は最先端のスケジューリング方式よりも優れていた。
論文 参考訳(メタデータ) (2020-07-14T16:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。