Fugu-MT 論文翻訳(概要): Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned

論文の概要: Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned

arxiv url: http://arxiv.org/abs/2603.25937v1
Date: Thu, 26 Mar 2026 22:04:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-30 21:49:48.297542
Title: Can Vision Foundation Models Navigate? Zero-Shot Real-World Evaluation and Lessons Learned
Title（参考訳）: ビジョンファウンデーションモデルはナビゲートできるか? ゼロショットの実世界評価と教訓
Authors: Maeva Guerrier, Karthik Soma, Jana Pavlasek, Giovanni Beltrame,
Abstract要約: ビジュアルナビゲーションモデル(VNM)は、大規模な視覚的なデモンストレーションから学ぶことで、一般化可能なロボットナビゲーションを約束する。室内と屋外にまたがる2つのロボットプラットフォームと5つの環境にまたがる5つの最先端VNMの現実的評価について述べる。
参考スコア（独自算出の注目度）: 5.561294055181353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Navigation Models (VNMs) promise generalizable, robot navigation by learning from large-scale visual demonstrations. Despite growing real-world deployment, existing evaluations rely almost exclusively on success rate, whether the robot reaches its goal, which conceals trajectory quality, collision behavior, and robustness to environmental change. We present a real-world evaluation of five state-of-the-art VNMs (GNM, ViNT, NoMaD, NaviBridger, and CrossFormer) across two robot platforms and five environments spanning indoor and outdoor settings. Beyond success rate, we combine path-based metrics with vision-based goal-recognition scores and assess robustness through controlled image perturbations (motion blur, sunflare). Our analysis uncovers three systematic limitations: (a) even architecturally sophisticated diffusion and transformer-based models exhibit frequent collisions, indicating limited geometric understanding; (b) models fail to discriminate between different locations that are perceptually similar, however some semantics differences are present, causing goal prediction errors in repetitive environments; and (c) performance degrades under distribution shift. We will publicly release our evaluation codebase and dataset to facilitate reproducible benchmarking of VNMs.
Abstract（参考訳）: ビジュアルナビゲーションモデル(VNM)は、大規模な視覚的なデモンストレーションから学ぶことで、一般化可能なロボットナビゲーションを約束する。現実の展開が増えているにもかかわらず、既存の評価は成功率にのみ依存しており、ロボットが目標を達成するかどうかは、軌道の質、衝突の振る舞い、環境の変化に対する堅牢さを隠蔽する。ロボットプラットフォームと屋内と屋外の5つの環境にまたがる5つの最先端VNM(GNM, ViNT, NoMaD, NaviBridger, CrossFormer)を実世界で評価した。成功率以外にも、パスベースのメトリクスとビジョンベースのゴール認識スコアを組み合わせ、制御されたイメージ摂動(動きのぼやけ、太陽フレア)を通してロバスト性を評価する。私たちの分析では3つの体系的な制限が明らかになった。 (a)建築的に洗練された拡散と変圧器に基づくモデルは、しばしば衝突し、幾何学的理解が限られていることを示す。 (b)モデルは知覚的に類似している異なる場所の区別に失敗するが、いくつかの意味的相違があり、反復的な環境で目標予測エラーを引き起こす。 (c) 分散シフト時に性能が低下する。 VNMの再現可能なベンチマークを容易にするため、評価コードベースとデータセットを公開します。

関連論文リスト

3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。 3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文参考訳（メタデータ） (2026-02-12T16:41:26Z)
RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation [76.22852262683746]
本稿では,現実的な条件下でのVLA一般化を体系的に評価するベンチマークであるRADARを紹介する。 RADARを用いて、複数の最先端のVLAモデルを監査し、その明らかな能力の下で深刻な脆弱性を明らかにする。
論文参考訳（メタデータ） (2026-02-11T16:08:30Z)
Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文参考訳（メタデータ） (2026-02-10T12:25:43Z)
RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。 HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文参考訳（メタデータ） (2025-07-12T01:58:04Z)
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文参考訳（メタデータ） (2025-06-27T03:24:29Z)
AdvReal: Physical Adversarial Patch Generation Framework for Security Evaluation of Object Detection Systems [13.653653250544004]
本稿では,2次元領域と3次元領域の両方を対象とした統合的対角訓練フレームワークを提案する。我々は,非剛性変形モデリングとテクスチャリマッピングを組み込んだリアリズム強化機構を開発する。本手法は, YOLOv12における平均攻撃成功率 (ASR) を 70.13% の物理シナリオで達成する。
論文参考訳（メタデータ） (2025-05-22T08:54:03Z)
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
FovEx: Human-Inspired Explanations for Vision Transformers and Convolutional Neural Networks [8.659674736978555]
人間の視覚に触発された新しいXAI手法であるFovEx(Floveation-based Explanations)を紹介する。本手法はトランスモデルと畳み込みモデルの両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-08-04T19:37:30Z)
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。 VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文参考訳（メタデータ） (2019-11-17T18:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。