論文の概要: VLAgents: A Policy Server for Efficient VLA Inference
- arxiv url: http://arxiv.org/abs/2601.11250v1
- Date: Fri, 16 Jan 2026 12:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.811232
- Title: VLAgents: A Policy Server for Efficient VLA Inference
- Title(参考訳): VLAgents: 効率的なVLA推論のためのポリシーサーバ
- Authors: Tobias Jülg, Khaled Gamal, Nisarga Nilavadi, Pierre Krack, Seongjin Bien, Michael Krawez, Florian Walter, Wolfram Burgard,
- Abstract要約: 我々は,統一されたGymnasiumスタイルのプロトコルの背後にあるVLA推論を抽象化するモジュール型ポリシーサーバであるVLAgentsを紹介する。
その通信層は、高速シミュレーションのためのゼロコピー共有メモリとリモートハードウェアのための圧縮ストリーミングの両方をサポートすることにより、コンテキストに透過的に適応する。
ローカル通信とリモート通信の両方のベンチマークでは、OpenVLA、OpenPi、LeRobotが提供するデフォルトのポリシーサーバよりも優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 10.731074886477515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid emergence of Vision-Language-Action models (VLAs) has a significant impact on robotics. However, their deployment remains complex due to the fragmented interfaces and the inherent communication latency in distributed setups. To address this, we introduce VLAgents, a modular policy server that abstracts VLA inferencing behind a unified Gymnasium-style protocol. Crucially, its communication layer transparently adapts to the context by supporting both zero-copy shared memory for high-speed simulation and compressed streaming for remote hardware. In this work, we present the architecture of VLAgents and validate it by integrating seven policies -- including OpenVLA and Pi Zero. In a benchmark with both local and remote communication, we further demonstrate how it outperforms the default policy servers provided by OpenVLA, OpenPi, and LeRobot. VLAgents is available at https://github.com/RobotControlStack/vlagents
- Abstract(参考訳): VLA(Vision-Language-Action Model)の急速な出現は、ロボット工学に大きな影響を及ぼす。
しかし、そのデプロイは、断片化されたインターフェイスと、分散セットアップにおける固有の通信遅延のために、依然として複雑である。
これを解決するために,統一されたGymnasiumスタイルのプロトコルの背後にあるVLA推論を抽象化するモジュール型ポリシーサーバであるVLAgentsを紹介した。
重要なことに、その通信層は、高速シミュレーションのためのゼロコピー共有メモリとリモートハードウェアのための圧縮ストリーミングの両方をサポートすることにより、コンテキストに透過的に適応する。
本稿では、VLAgentsのアーキテクチャを示し、OpenVLAとPi Zeroを含む7つのポリシーを統合することで検証する。
ローカル通信とリモート通信の両方のベンチマークでは、OpenVLA、OpenPi、LeRobotが提供するデフォルトのポリシーサーバよりもパフォーマンスが向上することを示す。
VLAgentsはhttps://github.com/RobotControlStack/vlagentsで利用可能である。
関連論文リスト
- LiteVLA-Edge: Quantized On-Device Multimodal Control for Embedded Robotics [0.6119773373677944]
本稿では,Jetson Orinクラスハードウェア上でのデバイス上での完全な推論のための,デプロイメント指向のVLAパイプラインであるLiteVLA-Edgeを紹介する。
提案手法は、FP32における教師付きイメージ・ツー・アクションの微調整と、4ビットGGUF量子化とGPU加速推論を組み合わせたものである。
我々の構成では、LiteVLA-Edgeは、完全にオフラインで動作しながら、150.5,ms(約6.6,Hz)の平均エンドツーエンドランタイムを達成する。
論文 参考訳(メタデータ) (2026-03-03T03:20:52Z) - Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文 参考訳(メタデータ) (2025-12-23T09:28:20Z) - Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion [8.05008302748311]
VLA-Pilotは、事前訓練されたVLAポリシーのゼロショット展開のための、プラグアンドプレイの推論時ポリシーステアリング手法である。
実験結果から,VLA-Pilotは市販のVLA政策の成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-11-18T06:30:52Z) - PixelVLA: Advancing Pixel-level Understanding in Vision-Language-Action Model [59.32370587806426]
VLA(Vision-Language-Action Model)は、一般化可能なビジュモータ制御ポリシーを学習するための強力なツールとして登場している。
我々は、ピクセルレベルの推論とテキストと視覚入力によるマルチモーダルプロンプトの両方をサポートするように設計された最初のVLAモデルであるPixelVLAを紹介する。
提案手法は,マルチスケールの画素認識エンコーダと視覚的プロンプトエンコーダを統合した,新しいビジュモータ・インストラクション・チューニング・フレームワークに基づいている。
論文 参考訳(メタデータ) (2025-11-03T13:39:37Z) - HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks [28.849312355730405]
VLA(Vision-Language-Action)モデルは、汎用的なロボットポリシーを学ぶための有望なアプローチとして登場した。
HyperVLAは、推論中に小さなタスク固有のポリシーのみを活性化する、新しいハイパーネットワーク(HN)ベースのアーキテクチャを使用している。
HyperVLAはゼロショット一般化と少数ショット適応の両方において、同様のあるいはそれ以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-06T15:15:38Z) - From Code to Action: Hierarchical Learning of Diffusion-VLM Policies [8.0703783175731]
ロボット操作の模倣学習はしばしば、限られた一般化とデータ不足に悩まされる。
本稿では,コード生成型視覚言語モデル(VLM)を活用した階層型フレームワークを提案する。
この設計は、解釈可能なポリシーの分解を可能にし、フラットなポリシーと比較して一般化を改善し、高レベルの計画と低レベルの制御を別々に評価できるようにする。
論文 参考訳(メタデータ) (2025-09-29T15:22:18Z) - UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。
我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。
我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文 参考訳(メタデータ) (2025-04-20T13:04:43Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。