論文の概要: GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions
- arxiv url: http://arxiv.org/abs/2508.21102v1
- Date: Thu, 28 Aug 2025 08:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.827962
- Title: GENNAV: Polygon Mask Generation for Generalized Referring Navigable Regions
- Title(参考訳): GENNAV: 一般的な航法可能領域のためのポリゴンマスク生成
- Authors: Kei Katsumata, Yui Iioka, Naoki Hosomi, Teruhisa Misu, Kentaro Yamada, Komei Sugiura,
- Abstract要約: 本研究では,自然言語命令とフロントカメラ画像から対象領域の位置を特定するタスクに焦点をあてる。
本稿では,複数の物型対象領域に対して,ターゲットの存在を予測し,セグメンテーションマスクを生成するGENNAVを提案する。
- 参考スコア(独自算出の注目度): 7.541327911630006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on the task of identifying the location of target regions from a natural language instruction and a front camera image captured by a mobility. This task is challenging because it requires both existence prediction and segmentation, particularly for stuff-type target regions with ambiguous boundaries. Existing methods often underperform in handling stuff-type target regions, in addition to absent or multiple targets. To overcome these limitations, we propose GENNAV, which predicts target existence and generates segmentation masks for multiple stuff-type target regions. To evaluate GENNAV, we constructed a novel benchmark called GRiN-Drive, which includes three distinct types of samples: no-target, single-target, and multi-target. GENNAV achieved superior performance over baseline methods on standard evaluation metrics. Furthermore, we conducted real-world experiments with four automobiles operated in five geographically distinct urban areas to validate its zero-shot transfer performance. In these experiments, GENNAV outperformed baseline methods and demonstrated its robustness across diverse real-world environments. The project page is available at https://gennav.vercel.app/.
- Abstract(参考訳): 本研究では,移動手段で捉えた自然言語命令とフロントカメラ画像から,対象領域の位置を特定するタスクに焦点をあてる。
このタスクは存在予測とセグメンテーションの両方を必要とするため、特に曖昧な境界を持つ物型ターゲット領域では困難である。
既存の手法は、欠落または複数のターゲットに加えて、物型ターゲット領域の処理では性能が劣ることが多い。
これらの制約を克服するために、ターゲットの存在を予測し、複数の物型ターゲット領域に対してセグメンテーションマスクを生成するGENNAVを提案する。
GENNAVを評価するために,GRiN-Driveと呼ばれる新しいベンチマークを構築した。
GENNAVは標準評価指標の基準法よりも優れた性能を示した。
さらに、地理的に異なる5つの都市部で走行する4台の自動車を用いた実環境実験を行い、ゼロショット転送性能の検証を行った。
これらの実験では、GENNAVはベースライン法より優れ、様々な現実世界環境における堅牢性を示した。
プロジェクトのページはhttps://gennav.vercel.app/.comで公開されている。
関連論文リスト
- UniGoal: Towards Universal Zero-shot Goal-oriented Navigation [68.45058159533376]
汎用的なゼロショットゴール指向ナビゲーションのための一般的なフレームワークを提案する。
本稿では,オブジェクトカテゴリ,インスタンスイメージ,テキスト記述など,異なる目標を統一する一様グラフ表現を提案する。
我々のUniGoalは、3つの研究されたナビゲーションタスクに対して1つのモデルで最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-03-13T17:59:48Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Target-Oriented Object Grasping via Multimodal Human Guidance [6.031799490542892]
従来の把握検出手法は、シーン全体を解析して把握を予測し、冗長性と非効率性をもたらす。
本研究では,目標参照視点から6-DoFのグリップ検出を再検討し,TOGNet(Target-Oriented Grasp Network)を提案する。
TOGNetは特に、より効率的に把握を予測するために、ローカルでオブジェクトに依存しない領域パッチをターゲットにしている。
論文 参考訳(メタデータ) (2024-08-20T18:42:56Z) - GOMAA-Geo: GOal Modality Agnostic Active Geo-localization [49.599465495973654]
エージェントが空中ナビゲーション中に観測された一連の視覚的手がかりを用いて、複数の可能なモダリティによって特定されたターゲットを見つけるという、アクティブなジオローカライゼーション(AGL)の課題を考察する。
GOMAA-Geo は、ゴールモダリティ間のゼロショット一般化のためのゴールモダリティアクティブなジオローカライゼーションエージェントである。
論文 参考訳(メタデータ) (2024-06-04T02:59:36Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - Spatial Relation Graph and Graph Convolutional Network for Object Goal
Navigation [9.127836379667531]
本稿では,ロボットが対象のクラスに最も近いインスタンスをランダムな開始位置から発見・移動する必要があるオブジェクトゴールナビゲーションタスクのためのフレームワークについて述べる。
このフレームワークは、ロボットの歴史を用いて、異なるインスタンスラベル付き領域の近さと、これらの領域における異なるオブジェクトクラスの発生の可能性について、軌道を学習する。
評価中に対象物を見つけるために、ロボットはベイズ推定とSRGを用いて可視領域を推定し、学習したGCN埋め込みを用いて可視領域をランク付けし、次に探索する領域を選択する。
論文 参考訳(メタデータ) (2022-08-27T14:49:04Z) - SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal
Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。
RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。
SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-14T06:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。