論文の概要: OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
- arxiv url: http://arxiv.org/abs/2603.14371v1
- Date: Sun, 15 Mar 2026 13:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.776573
- Title: OxyGen: Unified KV Cache Management for Vision-Language-Action Models under Multi-Task Parallelism
- Title(参考訳): OxyGen:マルチタスク並列処理によるビジョンランゲージ・アクションモデルのための統一KVキャッシュ管理
- Authors: Xiangyu Li, Huaizhi Tang, Xin Ding, Weijun Wang, Ting Cao, Yunxin Liu,
- Abstract要約: 我々は,KVキャッシュをタスクや時間とともに共有する第1級のリソースとして扱う推論パラダイムであるKVキャッシュ管理を統一的に提案する。
OxyGenは、孤立実行よりも最大3.7$timesのスピードアップを実現し、200トークン/秒の言語スループットと70Hzのアクション周波数をアクション品質の劣化なしに同時に提供する。
- 参考スコア(独自算出の注目度): 15.325398725305774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied AI agents increasingly require parallel execution of multiple tasks, such as manipulation, conversation, and memory construction, from shared observations under distinct time constraints. Recent Mixture-of-Transformers (MoT) Vision-Language-Action Models (VLAs) architecturally support such heterogeneous outputs, yet existing inference systems fail to achieve efficient multi-task parallelism for on-device deployment due to redundant computation and resource contention. We identify isolated KV cache management as the root cause. To address this, we propose unified KV cache management, an inference paradigm that treats KV cache as a first-class shared resource across tasks and over time. This abstraction enables two key optimizations: cross-task KV sharing eliminates redundant prefill of shared observations, while cross-frame continuous batching decouples variable-length language decoding from fixed-rate action generation across control cycles. We implement this paradigm for $π_{0.5}$, the most popular MoT VLA, and evaluate under representative robotic configurations. OxyGen achieves up to 3.7$\times$ speedup over isolated execution, delivering over 200 tokens/s language throughput and 70 Hz action frequency simultaneously without action quality degradation.
- Abstract(参考訳): Embodied AIエージェントは、異なる時間制約の下で共有された観察から、操作、会話、メモリ構築などの複数のタスクの並列実行をますます要求する。
近年のMixture-of-Transformers (MoT) Vision-Language-Action Models (VLA) は、そのような不均一な出力をアーキテクチャ的にサポートするが、既存の推論システムは、冗長な計算とリソース競合によってデバイス上に配置する上で、効率的なマルチタスク並列性を達成できない。
分離KVキャッシュ管理を根本原因として同定した。
そこで本研究では,KVキャッシュをタスクや時間とともに共有リソースとして扱う推論パラダイムとして,統一KVキャッシュ管理を提案する。
クロスタスクなKV共有は、共有された観測の冗長なプリフィルを排除し、クロスフレームなバッチ処理は、制御サイクルをまたいだ固定レートアクション生成から可変長言語デコーディングを分離する。
我々はこのパラダイムを最も人気のあるMoT VLAである$π_{0.5}$で実装し、代表的なロボット構成で評価する。
OxyGenは、分離された実行よりも最大3.7$\times$のスピードアップを実現し、200トークン/秒の言語スループットと70Hzのアクション周波数をアクション品質の劣化なしに同時に提供する。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - Hierarchical Adaptive Eviction for KV Cache Management in Multimodal Language Models [8.944739362562494]
既存のKVキャッシュ消去戦略は、視覚トークンとテキストトークンの間の不均一な注意分布に対処できない。
MLLMにおけるテキスト-視覚トークンの相互作用を最適化するKVキャッシュ消去フレームワークである階層適応消去(HAE)を提案する。
HAEは層間のKVキャッシュ使用を最小化し、インデックスブロードキャストによる計算オーバーヘッドを低減し、理論的には優れた情報完全性と低いエラー境界を保証する。
論文 参考訳(メタデータ) (2026-02-02T15:01:44Z) - Memory- and Latency-Constrained Inference of Large Language Models via Adaptive Split Computing [8.705453442427585]
大規模言語モデル(LLM)は様々な推論タスクでほぼ人間に近い性能を達成した。
リソース制約のあるIoT(Internet-of-Things)デバイスへのデプロイメントは、大量のパラメータフットプリントとメモリ集約型の自己回帰デコーディングのため、依然として現実的ではない。
この研究は、エッジデバイスにLLMを配置するために明示的に設計された最初の自動回帰対応分割コンピューティングフレームワークを紹介した。
論文 参考訳(メタデータ) (2025-11-06T02:55:07Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - CIFLEX: Contextual Instruction Flow for Sub-task Execution in Multi-Turn Interactions with a Single On-Device LLM [25.486389526043727]
単一オンデバイス大規模言語モデル(LLM)を用いたマルチターンインタラクションにおいて,効率的なサブタスク処理のための新しい実行方式を提案する。
我々は、小規模モデルに適した階層的な分類戦略を開発し、複数選択決定をバイナリモデルに分解する。
実験により、CIFLEXはタスク性能を劣化させることなく計算コストを大幅に削減し、デバイス上でスケーラブルで効率的なマルチタスク対話を可能にした。
論文 参考訳(メタデータ) (2025-09-24T01:20:47Z) - VLASCD: A Visual Language Action Model for Simultaneous Chatting and Decision Making [29.23206299246665]
マルチインプット・シングル・アウトプット(MISO)パラダイムは,マルチインプット・マルチ・アウトプット(MIMO)シナリオの性能を制限していることを示す。
MISOアーキテクチャでは、タスクは共有出力チャネルに競合し、不均衡な最適化と性能低下を引き起こす相互排除効果を生成する。
本稿では,同時対話生成と意思決定を併用したマルチタスク出力を実現するための統合トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T11:02:42Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。