Fugu-MT 論文翻訳(概要): Visual Prompt Based Reasoning for Offroad Mapping using Multimodal LLMs

論文の概要: Visual Prompt Based Reasoning for Offroad Mapping using Multimodal LLMs

arxiv url: http://arxiv.org/abs/2604.04564v1
Date: Mon, 06 Apr 2026 09:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.162821
Title: Visual Prompt Based Reasoning for Offroad Mapping using Multimodal LLMs
Title（参考訳）: マルチモーダルLLMを用いたオフロードマッピングのためのビジュアルプロンプトに基づく推論
Authors: Abdelmoamen Nasser, Yousef Baba'a, Murad Mebrahtu, Nadya Abdel Madjid, Jorge Dias, Majid Khonji,
Abstract要約: 本稿では,環境セグメンテーションにSAM2を活用するゼロショットアプローチと,乾燥領域を推論するための視覚言語モデル(VLM)を提案する。我々のアプローチは、高解像度セグメンテーションデータセット上の最先端のトレーニング可能なモデルを超え、Isaac Simオフロード環境におけるフルスタックナビゲーションを可能にします。
参考スコア（独自算出の注目度）: 6.899689527235878
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional approaches to off-road autonomy rely on separate models for terrain classification, height estimation, and quantifying slip or slope conditions. Utilizing several models requires training each component separately, having task specific datasets, and fine-tuning. In this work, we present a zero-shot approach leveraging SAM2 for environment segmentation and a vision-language model (VLM) to reason about drivable areas. Our approach involves passing to the VLM both the original image and the segmented image annotated with numeric labels for each mask. The VLM is then prompted to identify which regions, represented by these numeric labels, are drivable. Combined with planning and control modules, this unified framework eliminates the need for explicit terrain-specific models and relies instead on the inherent reasoning capabilities of the VLM. Our approach surpasses state-of-the-art trainable models on high resolution segmentation datasets and enables full stack navigation in our Isaac Sim offroad environment.
Abstract（参考訳）: オフロード自治への伝統的なアプローチは、地形分類、標高推定、スリップ条件や斜面条件の定量化のための別々のモデルに依存している。複数のモデルを使用するには、各コンポーネントを個別にトレーニングし、タスク固有のデータセットと微調整が必要である。本研究では,環境セグメンテーションにSAM2を活用するゼロショットアプローチと,乾燥領域を推論するための視覚言語モデル(VLM)を提案する。我々のアプローチは、元の画像と各マスクの数値ラベルで注釈付けされた分割画像の両方をVLMに渡すことである。次に、VLMは、これらの数値ラベルで表されるどの領域が乾燥可能であるかを特定するよう促される。計画と制御モジュールを組み合わせることで、この統合されたフレームワークは、明示的な地形固有のモデルの必要性を排除し、代わりにVLM固有の推論能力に依存している。我々のアプローチは、高解像度セグメンテーションデータセット上の最先端のトレーニング可能なモデルを超え、Isaac Simオフロード環境におけるフルスタックナビゲーションを可能にします。

関連論文リスト

OSM-based Domain Adaptation for Remote Sensing VLMs [49.91326341200221]
リモートセンシングに適応した視覚言語モデル(VLM)は、ドメイン固有の画像テキストの監視に大きく依存する。我々は、この依存関係を排除した自己完結型ドメイン適応フレームワークOSMDAを提案する。画像テキストからテキストまでのタスクで10のベンチマークを網羅的に評価する。
論文参考訳（メタデータ） (2026-03-12T11:08:30Z)
RemoteSAM: Towards Segment Anything for Earth Observation [29.707796048411705]
我々は、地球観測のための頑健でフレキシブルな視覚基盤モデルを開発することを目指している。多様な視覚的目標を認識し、位置を特定する能力を持つべきである。いくつかの地球観測知覚ベンチマークで新しいSoTAを確立する基盤モデルであるRemoteSAMを提案する。
論文参考訳（メタデータ） (2025-05-23T15:27:57Z)
Visual and Text Prompt Segmentation: A Novel Multi-Model Framework for Remote Sensing [30.980687857037033]
本稿では,Grounding DINO,CLIP,SAMの強みを活かしたVTPSegパイプラインを提案する。このパイプラインは,5つの一般的なリモートセンシング画像セグメンテーションデータセットを用いて,実験およびアブレーションによる検証を行った。
論文参考訳（メタデータ） (2025-03-10T23:15:57Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Localized Symbolic Knowledge Distillation for Visual Commonsense Models [150.18129140140238]
ローカル化されたVisual Commonsenseモデルを構築し、ユーザが入力として(複数の)リージョンを指定できるようにします。大規模言語モデルから局所的なコモンセンス知識を抽出してモデルを訓練する。局所化コモンセンスコーパスのトレーニングにより,既存の視覚言語モデルを抽出し,リファレンス・アズ・インプット・インタフェースをサポートできることが判明した。
論文参考訳（メタデータ） (2023-12-08T05:23:50Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文参考訳（メタデータ） (2022-11-15T13:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。