論文の概要: OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.01210v2
- Date: Thu, 06 Nov 2025 01:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.478719
- Title: OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
- Title(参考訳): OmniVLA:ロボットマニピュレーションのための統一型マルチモーダルVLA
- Authors: Heyu Guo, Shanmu Wang, Ruichun Ma, Shiqi Jiang, Yasaman Ghasempour, Omid Abari, Baining Guo, Lili Qiu,
- Abstract要約: 視覚-言語-アクション(VLA)モデルは、大規模視覚-言語事前訓練を通じてロボット行動予測の強力な一般化を示す。
我々は,RGB知覚を超えた空間的知能を物理的に接地する新しい感覚モダリティを組み込んだ全モードVLAモデルであるOmniVLAを提案する。
- 参考スコア(独自算出の注目度): 23.18144879039764
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language-action (VLA) models have shown strong generalization for robotic action prediction through large-scale vision-language pretraining. However, most existing models rely solely on RGB cameras, limiting their perception and, consequently, manipulation capabilities. We present OmniVLA, an omni-modality VLA model that integrates novel sensing modalities for physically-grounded spatial intelligence beyond RGB perception. The core of our approach is the sensor-masked image, a unified representation that overlays spatially grounded and physically meaningful masks onto the RGB images, derived from sensors including an infrared camera, a mmWave radar, and a microphone array. This image-native unification keeps sensor input close to RGB statistics to facilitate training, provides a uniform interface across sensor hardware, and enables data-efficient learning with lightweight per-sensor projectors. Built on this, we present a multisensory vision-language-action model architecture and train the model based on an RGB-pretrained VLA backbone. We evaluate OmniVLA on challenging real-world tasks where sensor-modality perception guides the robotic manipulation. OmniVLA achieves an average task success rate of 84%, significantly outperforms both RGB-only and raw-sensor-input baseline models by 59% and 28% respectively, meanwhile showing higher learning efficiency and stronger generalization capability.
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルは、大規模視覚-言語事前訓練を通じてロボット行動予測の強力な一般化を示す。
しかし、既存のほとんどのモデルはRGBカメラのみに依存しており、その知覚を制限し、結果として操作能力を制限している。
我々は,RGB知覚を超えた空間的知能を物理的に接地する新しい感覚モダリティを組み込んだ全モードVLAモデルであるOmniVLAを提案する。
我々のアプローチの核となるのは、赤外線カメラ、mmWaveレーダ、マイクアレイなどのセンサーから得られた、空間的に接地された、物理的に意味のあるマスクをRGB画像に重ね合わせる統一表現である。
この画像ネイティブ統合は、RGB統計値に近いセンサ入力を保持してトレーニングを容易にし、センサハードウェア間の統一インターフェースを提供し、センサーごとの軽量プロジェクタによるデータ効率の学習を可能にする。
これに基づいて,多感的な視覚-言語-アクションモデルアーキテクチャを提案し,RGBで規定されたVLAバックボーンに基づいてモデルを訓練する。
我々はOmniVLAを、センサー・モダリティ認識がロボット操作を導く現実世界の課題に対して評価する。
OmniVLAは平均タスク成功率84%を達成し、RGBのみのベースラインモデルと生センサ入力ベースラインモデルの両方を59%と28%で上回り、高い学習効率とより強力な一般化能力を示している。
関連論文リスト
- UNIV: Unified Foundation Model for Infrared and Visible Modalities [12.0490466425884]
Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。
PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。
我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
論文 参考訳(メタデータ) (2025-09-19T06:07:53Z) - DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis [11.976362049118782]
このレターではマルチモーダルシーン理解のためのフレームワークであるDepthVisionを紹介します。
条件付き生成逆数ネットワーク(GAN)を用いて、疎LiDAR点雲からRGB画像を合成する。
これらの合成ビューは、Luminance-Aware Modality Adaptation (LAMA)を用いて実際のRGBデータと結合される。
論文 参考訳(メタデータ) (2025-09-09T07:42:07Z) - HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。
本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。
また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文 参考訳(メタデータ) (2025-05-23T09:06:09Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Enhanced Vision-Language Models for Diverse Sensor Understanding: Cost-Efficient Optimization and Benchmarking [37.98711638929805]
本稿では,センサ画像の理解を大幅に向上させる,コスト効率の高い新しいパラダイムを提案する。
本稿では, 逆負の属性 (DNA) を最適化したセンサ・アウェア・属性・ファイン・チューニング (SAFT) を提案する。
VLMのセンサ固有の理解を厳格に評価するために設計されたVS-TDXは、最初の総合的な公開ベンチマークである。
論文 参考訳(メタデータ) (2024-12-30T06:44:25Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。