Fugu-MT 論文翻訳(概要): OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

論文の概要: OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL

arxiv url: http://arxiv.org/abs/2604.17706v1
Date: Mon, 20 Apr 2026 01:36:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.648412
Title: OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL
Title（参考訳）: OmniVLA-RL:空間理解とオンラインRLを用いた視覚言語行動モデル
Authors: Haoxiang Jie, Yaoyuan Yan, Xiangyu Wei, Kailin Wang, Hongjie Yan, Zhiyou Heng, Daocheng Chen,
Abstract要約: VLA(Visual-Language-Action)モデルは、組み込みAIのパラダイムシフトを表している。既存のフレームワークは、不正確な知覚、準最適マルチモーダル融合、強化学習における不安定性に苦慮している。提案するOmniVLA-RLは,Mix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を統合する新しいアーキテクチャである。
参考スコア（独自算出の注目度）: 1.880672844596704
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual-Language-Action (VLA) models represent a paradigm shift in embodied AI, yet existing frameworks often struggle with imprecise spatial perception, suboptimal multimodal fusion, and instability in reinforcement learning. To bridge these gaps, we propose OmniVLA-RL, a novel architecture that leverages a Mix-of-Transformers (MoT) design to synergistically integrate reasoning, spatial, and action experts. Furthermore, we introduce Flow-GSPO, which reformulates flow matching as a Stochastic Differential Equation (SDE) process and integrates it with Group Segmented Policy Optimization (GSPO) to enhance action precision and training robustness. Extensive evaluations on the LIBERO and LIBERO-Plus benchmarks demonstrate that OmniVLA-RL significantly outperforms state-of-the-art methods, effectively overcoming the fundamental limitations of current VLA models.
Abstract（参考訳）: VLA(Visual-Language-Action)モデルは、具現化されたAIのパラダイムシフトを表しているが、既存のフレームワークは、不正確な空間認識、準最適マルチモーダル融合、強化学習の不安定性にしばしば苦労している。これらのギャップを埋めるために,OmniVLA-RLを提案する。これはMix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を相乗的に統合する新しいアーキテクチャである。さらに,フローマッチングをSDE(Stochastic Differential Equation)プロセスとして再構成し,グループ分割ポリシー最適化(GSPO)と統合して,動作精度の向上とロバストネスのトレーニングを行うフロー-GSPOを提案する。 LIBERO と LIBERO-Plus のベンチマークによる大規模な評価は、OmniVLA-RL が最先端の手法を著しく上回り、現在の VLA モデルの基本的限界を克服していることを示している。

関連論文リスト

Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models [35.944951371813296]
VLA(Vision-Language-Action)モデルは、ロボット制御の強力な一般化を示すが、強化学習(RL)を用いてそれらを微調整することは、現実世界の相互作用のコストと安全性のリスクに制約される。 VLAファインタニングにおけるこれらの問題に対処するための実践的なフレームワークであるVLA-MBPOを提案する。データ効率のよい世界モデリングのための統一マルチモーダルモデルへの適応 (i) マルチビュー整合性を実現するためのインターリーブビューデコーディング機構 (ii) エラー合成を緩和するためのチャンクレベル分岐ロールアウト (iii) の3つの主要な設計選択がある。
論文参考訳（メタデータ） (2026-03-21T02:44:39Z)
SmoothVLA: Aligning Vision-Language-Action Models with Physical Constraints via Intrinsic Smoothness Optimization [11.680753432998358]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。 SmoothVLAは,タスク性能と動作のスムーズさを相乗的に最適化する,新しい強化学習ファインチューニングフレームワークである。我々の研究は、本質的な報酬最適化を通じて、VLAモデルと物理世界の制約を整合させるスケーラブルなアプローチを提供する。
論文参考訳（メタデータ） (2026-03-14T12:47:04Z)
Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文参考訳（メタデータ） (2025-09-30T02:36:11Z)
FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文参考訳（メタデータ） (2025-05-26T15:46:53Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。