論文の概要: OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.01210v2
- Date: Thu, 06 Nov 2025 01:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.478719
- Title: OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation
- Title(参考訳): OmniVLA:ロボットマニピュレーションのための統一型マルチモーダルVLA
- Authors: Heyu Guo, Shanmu Wang, Ruichun Ma, Shiqi Jiang, Yasaman Ghasempour, Omid Abari, Baining Guo, Lili Qiu,
- Abstract要約: 視覚-言語-アクション(VLA)モデルは、大規模視覚-言語事前訓練を通じてロボット行動予測の強力な一般化を示す。
我々は,RGB知覚を超えた空間的知能を物理的に接地する新しい感覚モダリティを組み込んだ全モードVLAモデルであるOmniVLAを提案する。
- 参考スコア(独自算出の注目度): 23.18144879039764
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language-action (VLA) models have shown strong generalization for robotic action prediction through large-scale vision-language pretraining. However, most existing models rely solely on RGB cameras, limiting their perception and, consequently, manipulation capabilities. We present OmniVLA, an omni-modality VLA model that integrates novel sensing modalities for physically-grounded spatial intelligence beyond RGB perception. The core of our approach is the sensor-masked image, a unified representation that overlays spatially grounded and physically meaningful masks onto the RGB images, derived from sensors including an infrared camera, a mmWave radar, and a microphone array. This image-native unification keeps sensor input close to RGB statistics to facilitate training, provides a uniform interface across sensor hardware, and enables data-efficient learning with lightweight per-sensor projectors. Built on this, we present a multisensory vision-language-action model architecture and train the model based on an RGB-pretrained VLA backbone. We evaluate OmniVLA on challenging real-world tasks where sensor-modality perception guides the robotic manipulation. OmniVLA achieves an average task success rate of 84%, significantly outperforms both RGB-only and raw-sensor-input baseline models by 59% and 28% respectively, meanwhile showing higher learning efficiency and stronger generalization capability.
- Abstract(参考訳): 視覚-言語-アクション(VLA)モデルは、大規模視覚-言語事前訓練を通じてロボット行動予測の強力な一般化を示す。
しかし、既存のほとんどのモデルはRGBカメラのみに依存しており、その知覚を制限し、結果として操作能力を制限している。
我々は,RGB知覚を超えた空間的知能を物理的に接地する新しい感覚モダリティを組み込んだ全モードVLAモデルであるOmniVLAを提案する。
我々のアプローチの核となるのは、赤外線カメラ、mmWaveレーダ、マイクアレイなどのセンサーから得られた、空間的に接地された、物理的に意味のあるマスクをRGB画像に重ね合わせる統一表現である。
この画像ネイティブ統合は、RGB統計値に近いセンサ入力を保持してトレーニングを容易にし、センサハードウェア間の統一インターフェースを提供し、センサーごとの軽量プロジェクタによるデータ効率の学習を可能にする。
これに基づいて,多感的な視覚-言語-アクションモデルアーキテクチャを提案し,RGBで規定されたVLAバックボーンに基づいてモデルを訓練する。
我々はOmniVLAを、センサー・モダリティ認識がロボット操作を導く現実世界の課題に対して評価する。
OmniVLAは平均タスク成功率84%を達成し、RGBのみのベースラインモデルと生センサ入力ベースラインモデルの両方を59%と28%で上回り、高い学習効率とより強力な一般化能力を示している。
関連論文リスト
- DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2026-01-26T19:45:31Z) - Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization [0.8839687029212673]
公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。
モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-18T08:44:22Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - UNIV: Unified Foundation Model for Infrared and Visible Modalities [12.0490466425884]
Infrared and Visible modalities(UNIV)のための生物学的に着想を得た統一基盤モデルを提案する。
PCCLは、網膜水平細胞の側方抑制を模倣する注意誘導蒸留フレームワークである。
我々の二重知識保存機構は網膜の双極性細胞シグナルルーティングをエミュレートする。
論文 参考訳(メタデータ) (2025-09-19T06:07:53Z) - DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis [11.976362049118782]
このレターではマルチモーダルシーン理解のためのフレームワークであるDepthVisionを紹介します。
条件付き生成逆数ネットワーク(GAN)を用いて、疎LiDAR点雲からRGB画像を合成する。
これらの合成ビューは、Luminance-Aware Modality Adaptation (LAMA)を用いて実際のRGBデータと結合される。
論文 参考訳(メタデータ) (2025-09-09T07:42:07Z) - HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。
本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。
また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文 参考訳(メタデータ) (2025-05-23T09:06:09Z) - AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。
AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。
挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文 参考訳(メタデータ) (2025-05-21T07:02:05Z) - Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - Enhanced Vision-Language Models for Diverse Sensor Understanding: Cost-Efficient Optimization and Benchmarking [37.98711638929805]
本稿では,センサ画像の理解を大幅に向上させる,コスト効率の高い新しいパラダイムを提案する。
本稿では, 逆負の属性 (DNA) を最適化したセンサ・アウェア・属性・ファイン・チューニング (SAFT) を提案する。
VLMのセンサ固有の理解を厳格に評価するために設計されたVS-TDXは、最初の総合的な公開ベンチマークである。
論文 参考訳(メタデータ) (2024-12-30T06:44:25Z) - Ultra-Range Gesture Recognition using a Web-Camera in Human-Robot Interaction [2.240453048130742]
ジェスチャー認識の視覚的手法は, ユーザ・カメラ距離が7m以内で有効であることが示されている。
本稿では,GViT (Graph Vision Transformer) と呼ばれる新しいURGRを提案する。
種々のテストデータに対するフレームワークの評価は98.1%という高い認識率が得られる。
論文 参考訳(メタデータ) (2023-11-26T17:27:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - A Universal Semantic-Geometric Representation for Robotic Manipulation [42.18087956844491]
本稿では,ロボット工学の汎用認識モジュールであるtextbfSemantic-Geometric Representation (textbfSGR) について述べる。
SGRは、大規模事前訓練された2次元モデルのリッチな意味情報を活用し、3次元空間推論の利点を継承する。
我々の実験は、SGRがエージェントに様々なシミュレーションおよび実世界のロボット操作タスクを完了させることを実証した。
論文 参考訳(メタデータ) (2023-06-18T04:34:17Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。