Fugu-MT 論文翻訳(概要): Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks

論文の概要: Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks

arxiv url: http://arxiv.org/abs/2508.11584v1
Date: Fri, 15 Aug 2025 16:42:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-18 14:51:24.152112
Title: Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks
Title（参考訳）: 視覚知覚エンジン:ロボットビジョンタスクのための高速で柔軟なマルチヘッド推論
Authors: Jakub Łucki, Jonathan Becktor, Georgios Georgakis, Robert Royce, Shehryar Khattak,
Abstract要約: Visual Perception Engine (VPEngine)は、開発者のアクセシビリティを維持しながら、視覚的マルチタスクのための効率的なGPU使用を可能にするために設計されたモジュラーフレームワークである。我々のフレームワークアーキテクチャは、並列に実行される複数のタスク固有のモデルヘッド間で効率的に共有される画像表現を抽出する共有基盤モデルバックボーンを活用している。実装例では、NVIDIA Jetson Orin AGX forRT最適化モデル上で、エンド・ツー・エンドのリアルタイム性能を$geq$50 Hzで示す。
参考スコア（独自算出の注目度）: 6.943057640797408
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying multiple machine learning models on resource-constrained robotic platforms for different perception tasks often results in redundant computations, large memory footprints, and complex integration challenges. In response, this work presents Visual Perception Engine (VPEngine), a modular framework designed to enable efficient GPU usage for visual multitasking while maintaining extensibility and developer accessibility. Our framework architecture leverages a shared foundation model backbone that extracts image representations, which are efficiently shared, without any unnecessary GPU-CPU memory transfers, across multiple specialized task-specific model heads running in parallel. This design eliminates the computational redundancy inherent in feature extraction component when deploying traditional sequential models while enabling dynamic task prioritization based on application demands. We demonstrate our framework's capabilities through an example implementation using DINOv2 as the foundation model with multiple task (depth, object detection and semantic segmentation) heads, achieving up to 3x speedup compared to sequential execution. Building on CUDA Multi-Process Service (MPS), VPEngine offers efficient GPU utilization and maintains a constant memory footprint while allowing per-task inference frequencies to be adjusted dynamically during runtime. The framework is written in Python and is open source with ROS2 C++ (Humble) bindings for ease of use by the robotics community across diverse robotic platforms. Our example implementation demonstrates end-to-end real-time performance at $\geq$50 Hz on NVIDIA Jetson Orin AGX for TensorRT optimized models.
Abstract（参考訳）: 異なる知覚タスクのためにリソース制約のあるロボットプラットフォームに複数の機械学習モデルをデプロイすると、しばしば冗長な計算、大きなメモリフットプリント、複雑な統合課題が発生する。この作業は、拡張性と開発者のアクセシビリティを維持しながら、視覚的マルチタスクに効率的なGPU使用を可能にするために設計されたモジュラーフレームワークであるVisual Perception Engine(VPEngine)を提示する。当社のフレームワークアーキテクチャでは,GPUとCPUのメモリ転送を必要とせずに効率的に共有される画像表現を,並列に実行される複数のタスク固有のモデルヘッド間で共有する,共有基盤モデルバックボーンを活用している。この設計では、アプリケーション要求に基づいて動的タスク優先順位付けを可能にしながら、従来のシーケンシャルモデルをデプロイする際、特徴抽出コンポーネントに固有の計算冗長性を排除している。複数のタスク(深度、オブジェクト検出、セマンティックセグメンテーション)ヘッドを持つ基礎モデルとしてDINOv2を用いた実例実装によるフレームワークの機能の実証を行い、逐次実行と比較して最大3倍の高速化を実現した。 CUDA Multi-Process Service (MPS)上に構築されているVPEngineは、効率的なGPU利用を提供し、実行中にタスクごとの推論頻度を動的に調整しながら、一定のメモリフットプリントを維持する。このフレームワークはPythonで書かれており、さまざまなロボットプラットフォームでロボティクスコミュニティが使いやすくするために、ROS2 C++(Humble)バインディングをオープンソースとして提供している。本稿では,NVIDIA Jetson Orin AGX の TensorRT 最適化モデルに対して,エンド・ツー・エンドのリアルタイム性能を$\geq$50 Hz で示す。

関連論文リスト

RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。 RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。 RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文参考訳（メタデータ） (2024-07-15T16:25:07Z)
HENet: Hybrid Encoding for End-to-end Multi-task 3D Perception from Multi-view Cameras [45.739224968302565]
本稿では,マルチタスク3次元知覚のためのHENetというエンドツーエンドフレームワークを提案する。具体的には,短期フレーム用大画像エンコーダと長期フレーム用小画像エンコーダを用いたハイブリッド画像エンコーダを提案する。各認識タスクの特徴により、異なるグリッドサイズのBEV機能、独立したBEVエンコーダ、タスクデコーダを異なるタスクに活用する。
論文参考訳（メタデータ） (2024-04-03T07:10:18Z)
Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文参考訳（メタデータ） (2023-10-02T08:49:56Z)
A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文参考訳（メタデータ） (2023-06-08T09:24:46Z)
Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。 Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文参考訳（メタデータ） (2023-04-21T18:07:14Z)
ManiSkill2: A Unified Benchmark for Generalizable Manipulation Skills [24.150758623016195]
我々は、一般化可能な操作スキルのための次世代のSAPIEN ManiSkillベンチマークであるManiSkill2を紹介する。 ManiSkill2には、2000以上のオブジェクトモデルと4M以上のデモフレームを備えた20の操作タスクファミリが含まれている。幅広いアルゴリズムをサポートする統一インターフェースと評価プロトコルを定義する。高速な視覚入力学習アルゴリズムにより、CNNベースのポリシーでサンプルを約2000 FPSで収集することができる。
論文参考訳（メタデータ） (2023-02-09T14:24:01Z)
MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文参考訳（メタデータ） (2022-05-17T13:03:18Z)
Efficient Multi-Organ Segmentation Using SpatialConfiguration-Net with Low GPU Memory Requirements [8.967700713755281]
本研究では,SpatialConfiguration-Net(SCN)に基づくマルチ組織セグメンテーションモデルを用いる。セグメンテーションモデルのアーキテクチャを改良し,メモリフットプリントの削減を図った。最後に、我々は最小限の推論スクリプトを実装し、実行時間と必要なGPUメモリの両方を最適化した。
論文参考訳（メタデータ） (2021-11-26T17:47:10Z)
Optimizing Streaming Parallelism on Heterogeneous Many-Core Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文参考訳（メタデータ） (2020-03-05T21:18:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。