論文の概要: OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation
- arxiv url: http://arxiv.org/abs/2509.19480v1
- Date: Tue, 23 Sep 2025 18:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.570205
- Title: OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation
- Title(参考訳): OmniVLA:ロボットナビゲーションのためのOmni-Modal Vision-Language-Action Model
- Authors: Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine,
- Abstract要約: 視覚に基づくナビゲーションのためのオムニモーダル目標条件付けを可能にするロボット基礎モデルのトレーニングフレームワークを提案する。
提案手法は,高容量な視覚-言語-アクションバックボーンと,3つの主要目標モードを持つトレーニングを利用する。
我々は、OmniVLAが、モダリティにまたがるスペシャリストのベースラインを上回り、新しいモダリティやタスクに微調整するための柔軟な基盤を提供することを示した。
- 参考スコア(独自算出の注目度): 49.66156306240961
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Humans can flexibly interpret and compose different goal specifications, such as language instructions, spatial coordinates, or visual references, when navigating to a destination. In contrast, most existing robotic navigation policies are trained on a single modality, limiting their adaptability to real-world scenarios where different forms of goal specification are natural and complementary. In this work, we present a training framework for robotic foundation models that enables omni-modal goal conditioning for vision-based navigation. Our approach leverages a high-capacity vision-language-action (VLA) backbone and trains with three primary goal modalities: 2D poses, egocentric images, and natural language, as well as their combinations, through a randomized modality fusion strategy. This design not only expands the pool of usable datasets but also encourages the policy to develop richer geometric, semantic, and visual representations. The resulting model, OmniVLA, achieves strong generalization to unseen environments, robustness to scarce modalities, and the ability to follow novel natural language instructions. We demonstrate that OmniVLA outperforms specialist baselines across modalities and offers a flexible foundation for fine-tuning to new modalities and tasks. We believe OmniVLA provides a step toward broadly generalizable and flexible navigation policies, and a scalable path for building omni-modal robotic foundation models. We present videos showcasing OmniVLA performance and will release its checkpoints and training code on our project page.
- Abstract(参考訳): 人間は目的地に向かう際に、言語命令、空間座標、視覚的参照などの異なる目標仕様を柔軟に解釈し、構成することができる。
対照的に、既存のロボットナビゲーションポリシーは単一のモダリティでトレーニングされており、目標仕様の異なる形態が自然で相補的な現実のシナリオへの適応性を制限している。
本研究では,視覚に基づくナビゲーションのためのオムニモーダルゴールコンディショニングを実現するロボット基礎モデルのトレーニングフレームワークを提案する。
提案手法は,2次元ポーズ,エゴセントリックイメージ,自然言語,およびそれらの組み合わせの3つの主要目標モードを持つ高容量視覚言語行動(VLA)のバックボーンを利用する。
この設計は、利用可能なデータセットのプールを広げるだけでなく、よりリッチな幾何学的、セマンティック、視覚的表現を開発するようポリシーを奨励する。
結果のモデルであるOmniVLAは、目に見えない環境への強力な一般化、モダリティの不足に対する堅牢性、新しい自然言語命令に従う能力を実現する。
我々は、OmniVLAが、モダリティにまたがるスペシャリストのベースラインを上回り、新しいモダリティやタスクに微調整するための柔軟な基盤を提供することを示した。
我々はOmniVLAが広範に一般化可能でフレキシブルなナビゲーションポリシーと、Omni-Modal Robotics Foundationモデルを構築するためのスケーラブルなパスを提供すると考えている。
我々はOmniVLAのパフォーマンスを示すビデオを紹介し、そのチェックポイントとトレーニングコードをプロジェクトページで公開します。
関連論文リスト
- Grounded Vision-Language Navigation for UAVs with Open-Vocabulary Goal Understanding [1.280979348722635]
ビジョン・アンド・ランゲージナビゲーション(VLN)は、自律ロボット工学における長年にわたる課題であり、複雑な環境をナビゲートしながら、エージェントに人間の指示に従う能力を与えることを目的としている。
本研究では,無人航空機(UAV)に適した言語誘導飛行を行うフレームワークであるビジョン・ランゲージ・フライ(VLFly)を提案する。
論文 参考訳(メタデータ) (2025-06-12T14:40:50Z) - UAV-VLN: End-to-End Vision Language guided Navigation for UAVs [0.0]
AI誘導の自律性における中核的な課題は、エージェントが以前見えなかった環境で現実的で効果的にナビゲートできるようにすることである。
UAV-VLNは無人航空機(UAV)のための新しいエンドツーエンドビジョンランゲージナビゲーションフレームワークである。
本システムでは,自由形式の自然言語命令を解釈し,視覚的観察に利用し,多様な環境下で実現可能な航空軌道を計画する。
論文 参考訳(メタデータ) (2025-04-30T08:40:47Z) - FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [13.969116430006215]
視覚・言語ナビゲーション(VLN)の革新的階層的アプローチであるFlexVLNを提案する。
教師付き学習ベースのインストラクションフォロワのナビゲーション能力とLLM Plannerの堅牢な一般化能力を統合する。
一般化能力を評価するために,REVERIE,SOON,CVDN-targetをドメイン外のデータセットとみなす。
論文 参考訳(メタデータ) (2025-03-18T06:58:41Z) - Ola: Pushing the Frontiers of Omni-Modal Language Model [88.72389428177942]
我々はOlaについて述べる。Olaは、画像、ビデオ、音声の理解間での競合性能を実現するオムニモーダル言語モデルである。
Olaは、いくつかの重要かつ効果的な改善を通じて、高度な視覚的理解と音声認識機能を備えている。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。