論文の概要: Vision-Language Models on the Edge for Real-Time Robotic Perception
- arxiv url: http://arxiv.org/abs/2601.14921v1
- Date: Wed, 21 Jan 2026 12:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.349866
- Title: Vision-Language Models on the Edge for Real-Time Robotic Perception
- Title(参考訳): リアルタイムロボット知覚のためのエッジ上の視覚言語モデル
- Authors: Sarat Ahmad, Maryam Hafeez, Syed Ali Raza Zaidi,
- Abstract要約: 6G内のエッジインテリジェンス、特にOpen RANとMulti- Access Edge Computingは、これらの課題に対処するための経路を提供する。
本研究は,Unitree G1ヒューマノイドロボットを具現化したテストベッドとして,ORAN/MECインフラストラクチャ上でのビジョンランゲージモデルの展開について検討する。
その結果,エッジデプロイメントはクラウドに近い精度を保ちながら,エンドツーエンドのレイテンシを5%削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) enable multimodal reasoning for robotic perception and interaction, but their deployment in real-world systems remains constrained by latency, limited onboard resources, and privacy risks of cloud offloading. Edge intelligence within 6G, particularly Open RAN and Multi-access Edge Computing (MEC), offers a pathway to address these challenges by bringing computation closer to the data source. This work investigates the deployment of VLMs on ORAN/MEC infrastructure using the Unitree G1 humanoid robot as an embodied testbed. We design a WebRTC-based pipeline that streams multimodal data to an edge node and evaluate LLaMA-3.2-11B-Vision-Instruct deployed at the edge versus in the cloud under real-time conditions. Our results show that edge deployment preserves near-cloud accuracy while reducing end-to-end latency by 5\%. We further evaluate Qwen2-VL-2B-Instruct, a compact model optimized for resource-constrained environments, which achieves sub-second responsiveness, cutting latency by more than half but at the cost of accuracy.
- Abstract(参考訳): VLM(Vision-Language Models)は、ロボットの知覚とインタラクションのマルチモーダル推論を可能にするが、実際のシステムへの展開は、レイテンシ、オンボードリソースの制限、クラウドオフロードのプライバシリスクによって制限されている。
6G内のエッジインテリジェンス、特にOpen RANとMulti- Access Edge Computing (MEC)は、計算をデータソースに近づけることで、これらの課題に対処するための経路を提供する。
本研究は,Unitree G1ヒューマノイドロボットを組込みテストベッドとして,ORAN/MECインフラストラクチャ上でのVLMの展開について検討する。
我々は、エッジノードにマルチモーダルデータをストリームするWebRTCベースのパイプラインを設計し、リアルタイム条件下でエッジにデプロイされたLLaMA-3.2-11B-Vision-Instructを評価する。
その結果,エッジデプロイメントはクラウドに近い精度を保ちながら,エンドツーエンドのレイテンシを56%削減できることがわかった。
さらに,資源制約環境に最適化されたQwen2-VL-2B-Instructの評価を行った。
関連論文リスト
- SC-MII: Infrastructure LiDAR-based 3D Object Detection on Edge Devices for Split Computing with Multiple Intermediate Outputs Integration [1.1761374316223123]
LiDARベースのポイントクラウドデータとディープニューラルネットワークを用いた3Dオブジェクト検出は、自動運転技術において不可欠である。
最先端デバイスに最先端モデルをデプロイすることは、高い計算要求とエネルギー消費による課題を示す。
本稿では,複数の中間出力を統合したスプリットコンピューティングのためのエッジデバイス上での複数インフラLiDARベースの3Dオブジェクト検出であるSC-MIIを提案する。
論文 参考訳(メタデータ) (2026-01-12T01:17:01Z) - Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection? [57.000348519630286]
モバイルエッジコンピューティングの最近の進歩により、高精度ニューラルネットワークを備えたエッジサーバに集約的なオブジェクト検出をオフロードすることが可能になった。
このハイブリッドアプローチは有望なソリューションを提供するが、新たな課題として、エッジ検出とローカルトラッキングのタイミングを決定する。
局所的なトラッキングとエッジ検出を適応的に選択する深層強化学習に基づくアルゴリズムである単一デバイス環境での LTED-Ada を提案する。
論文 参考訳(メタデータ) (2025-11-25T04:54:51Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits [11.398891065175686]
大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。
LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。
本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:55:16Z) - Generative AI on the Edge: Architecture and Performance Evaluation [0.3999851878220877]
6GのAIネイティブビジョンであるアドバンストインテリジェンスをネットワークに組み込むには、エッジデバイス上のジェネレーティブAI(GenAI)モデルを体系的に評価する必要がある。
本研究では,ORANのエッジテストベッドとして機能する1つのコモディティRaspberry Pi上でのLLM(Large Language Models)推論の計算要求について検討する。
論文 参考訳(メタデータ) (2024-11-18T16:09:01Z) - Streaming Video Analytics On The Edge With Asynchronous Cloud Support [2.7456483236562437]
本稿では,エッジとクラウドの予測を融合させ,低レイテンシで高精度なエッジクラウド融合アルゴリズムを提案する。
ビデオのオブジェクト検出(多くのビデオ分析シナリオに適用可能)に注目し、融合したエッジクラウド予測が、エッジのみのシナリオとクラウドのみのシナリオの精度を最大50%上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T06:22:13Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - EffCNet: An Efficient CondenseNet for Image Classification on NXP
BlueBox [0.0]
エッジデバイスは、安価なハードウェアと限られた冷却と計算資源のために、限られた処理能力を提供する。
我々はエッジデバイスのためのEffCNetと呼ばれる新しいディープ畳み込みニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-28T21:32:31Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - SABER: Data-Driven Motion Planner for Autonomously Navigating
Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。
モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。
リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。
ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文 参考訳(メタデータ) (2021-08-03T02:56:21Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。