論文の概要: MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation
- arxiv url: http://arxiv.org/abs/2605.00397v1
- Date: Fri, 01 May 2026 04:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.846137
- Title: MiniVLA-Nav v1: A Multi-Scene Simulation Dataset for Language-Conditioned Robot Navigation
- Title(参考訳): MiniVLA-Nav v1: 言語記述型ロボットナビゲーションのためのマルチシーンシミュレーションデータセット
- Authors: Ali Al-Bustami, Jaerock Kwon,
- Abstract要約: MiniVLA-Nav v1はLanguage-Conditioned Object Approachナビゲーションのためのシミュレーションデータセットである。
1,174エピソードはそれぞれ、640x640 RGBの同期画像、メートル法深度マップ、インスタンスセグメンテーションマスクとインストラクションをペアリングする。
データセットはhttps://huggingface.co/datasets/alibustami/miniVLA-Navで公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MiniVLA-Nav v1, a simulation dataset for Language-Conditioned Object Approach (LCOA) navigation: given a short natural-language instruction, an NVIDIA Nova Carter differential-drive robot must navigate to the named object and stop within 1 m across four photorealistic Isaac Sim environments (Office, Hospital, Full Warehouse, and Warehouse with Multiple Shelves). Each of the 1,174 episodes pairs an instruction with synchronized 640x640 RGB images, metric depth maps (float32, metres), and instance segmentation masks, together with continuous (v,omega) and 7x7 tokenized expert action labels recorded at 60 Hz from a vision-based proportional controller. Trajectory diversity is ensured through three spawn-distance tiers (near: 1.5-3.5 m, mid: 3.5-7.0 m, far: global curated points; Pearson r=0.94 between spawn distance and trajectory length), 12 object categories, 18 training templates, and 12 paraphrase-OOD templates. Five evaluation splits support in-distribution accuracy, template-paraphrase robustness, and OOD object-category benchmarking. The dataset is publicly available at https://huggingface.co/datasets/alibustami/miniVLA-Nav
- Abstract(参考訳): 本稿では,Language-Conditioned Object Approach (LCOA)ナビゲーションのシミュレーションデータセットであるMiniVLA-Nav v1について述べる。
1,174エピソードはそれぞれ、640x640 RGBの同期画像、メートル法深度マップ(float32,meter)、インスタンスセグメンテーションマスクと、連続(v,omega)と60Hzで記録された7x7の専門家アクションラベルとをペアリングする。
軌道の多様性は、3つの産卵距離層(近く:1.5-3.5m、中:3.5-7.0m、遠く:大域的な硬化点、産卵距離と軌道長の間のピアソンr=0.94)、12の対象カテゴリー、18の訓練テンプレート、12のパラフレーズ-OODテンプレートによって確保される。
5つの評価は、分配精度、テンプレートパラフレーズの堅牢性、OODオブジェクトカテゴリベンチマークをサポートする。
データセットはhttps://huggingface.co/datasets/alibustami/miniVLA-Navで公開されている。
関連論文リスト
- OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms [33.40889181799252]
言語誘導型エンボディナビゲーションでは、エージェントがオブジェクト参照命令を解釈し、複数の部屋を探索し、参照されたターゲットをローカライズし、それに対する信頼できる動きを実行する必要がある。
OmniVLNは、全方位3次元知覚とトークン効率の高い階層的推論を、空中と地上の両方で組み合わせたゼロショット視覚言語ナビゲーションフレームワークである。
実験により、提案した階層インタフェースは空間参照精度を77.27%から93.18%に改善し、マルチルームの乱雑な設定で累積的なプロンプトトークンを61.7%削減し、フラットで最大11.68%のナビゲーション成功率向上を実現した。
論文 参考訳(メタデータ) (2026-03-18T04:26:30Z) - MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method [49.121704780656366]
水中物体追跡(UOT)は、効率的な海洋ロボティクス、大規模な生態モニタリング、海洋探査に不可欠である。
既存のベンチマークは小さく、RGBのみであり、厳密な色歪み、濁度、視界の低い条件下での堅牢性を制限する。
MUOT_3Mは,32のトラッキング属性,677のきめ細かいクラス,同期RGBを付加した3,030ビデオ(27.8h)の300万フレームからなる,最初の擬似マルチモーダル UOT ベンチマークである。
MUTrack, SAM-based multimodal to unimodal trackerを提案する。
論文 参考訳(メタデータ) (2026-02-20T05:43:47Z) - ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation [50.35621223011076]
ABot-N0は5つのコアタスクにまたがる「グランド・ユニフィケーション」を実現する統合ビジョン・ランゲージ・アクション(VLA)基盤モデルである。
ABot-N0は階層的なBrain-Action'アーキテクチャを使用し、LLMベースのCognitive Brainをセマンティック推論に組み合わせ、フローマッチングベースのAction Expertと組み合わせて正確で連続的な軌道生成を行う。
論文 参考訳(メタデータ) (2026-02-12T05:30:20Z) - DrivePI: Spatial-aware 4D MLLM for Unified Autonomous Driving Understanding, Perception, Prediction and Planning [94.62097655403683]
本稿では,ビジョン・ランゲージ・アクション統合フレームワークとして機能する空間認識型4次元MLLMであるDrivePIを提案する。
提案手法は,空間的理解,3次元知覚,予測(占有フロー),計画(行動出力)を並列に行う。
MLLMのバックボーンとして0.5BのQwen2.5モデルしか持たず、単一の統一モデルとしてのDrivePIは既存のVLAモデルと特殊VAモデルの両方を上回るか、あるいは超える。
論文 参考訳(メタデータ) (2025-12-14T18:45:54Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。
HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。
我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文 参考訳(メタデータ) (2024-09-22T02:12:29Z) - Object Tracking by Detection with Visual and Motion Cues [1.7818230914983044]
自動運転車は、カメラ画像中の物体を検出し、追跡する必要がある。
本稿では,カルマンフィルタを用いた定速度運動モデルに基づく簡易オンライン追跡アルゴリズムを提案する。
課題のあるBDD100データセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2021-01-19T10:29:16Z) - Real-Time target detection in maritime scenarios based on YOLOv3 model [65.35132992156942]
ウェブスクレイピングによって収集された56k以上の海洋船舶の画像からなる、新しい船舶データセットが提案されている。
Keras APIをベースとしたYOLOv3シングルステージ検出器がこのデータセット上に構築されている。
論文 参考訳(メタデータ) (2020-02-10T15:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。