論文の概要: Semantic Map-based Generation of Navigation Instructions
- arxiv url: http://arxiv.org/abs/2403.19603v1
- Date: Thu, 28 Mar 2024 17:27:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:14:42.411740
- Title: Semantic Map-based Generation of Navigation Instructions
- Title(参考訳): 意味地図に基づくナビゲーション命令の生成
- Authors: Chengzu Li, Chao Zhang, Simone Teufel, Rama Sanand Doddipatla, Svetlana Stoyanchev,
- Abstract要約: 画像キャプションタスクとして問題をフレーミングすることでナビゲーション命令生成に新たなアプローチを提案する。
従来のアプローチでは、ナビゲーション命令を生成するために一連のパノラマ画像を使用する。
セマンティックマップを用いた命令生成のためのベンチマークデータセットを提案し、初期モデルを提案し、人に対して、生成した命令の質を手動で評価するよう依頼する。
- 参考スコア(独自算出の注目度): 9.197756644049862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in the generation of navigation instructions, either in their own right or as training material for robotic navigation task. In this paper, we propose a new approach to navigation instruction generation by framing the problem as an image captioning task using semantic maps as visual input. Conventional approaches employ a sequence of panorama images to generate navigation instructions. Semantic maps abstract away from visual details and fuse the information in multiple panorama images into a single top-down representation, thereby reducing computational complexity to process the input. We present a benchmark dataset for instruction generation using semantic maps, propose an initial model and ask human subjects to manually assess the quality of generated instructions. Our initial investigations show promise in using semantic maps for instruction generation instead of a sequence of panorama images, but there is vast scope for improvement. We release the code for data preparation and model training at https://github.com/chengzu-li/VLGen.
- Abstract(参考訳): 我々は,ロボットナビゲーションタスクのトレーニング材料として,自力でナビゲーション命令を生成することに興味を持っている。
本稿では,意味マップを視覚入力として用いた画像キャプションタスクとして問題をフレーミングすることで,ナビゲーション命令生成のための新しいアプローチを提案する。
従来のアプローチでは、ナビゲーション命令を生成するために一連のパノラマ画像を使用する。
セマンティックマップは視覚的詳細から抽象化され、複数のパノラマ画像の情報を単一のトップダウン表現に融合することで、入力を処理するのに計算の複雑さを減少させる。
セマンティックマップを用いた命令生成のためのベンチマークデータセットを提案し、初期モデルを提案し、人に対して、生成した命令の質を手動で評価するよう依頼する。
最初の調査では、パノラマ画像のシーケンスではなく、意味マップを命令生成に使用するという有望性を示したが、改善の余地は広い。
データ準備とモデルトレーニングのコードはhttps://github.com/chengzu-li/VLGen.comで公開しています。
関連論文リスト
- Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - SNAP: Self-Supervised Neural Maps for Visual Positioning and Semantic
Understanding [57.108301842535894]
我々は、地上と頭上の画像からリッチなニューラル2Dマップを学習するディープネットワークSNAPを紹介する。
我々は、異なる入力から推定されるニューラルマップの整列をトレーニングし、何千万ものストリートビュー画像のカメラポーズでのみ監視する。
SNAPは、従来の手法の範囲を超えて、挑戦的な画像クエリの場所を解決できる。
論文 参考訳(メタデータ) (2023-06-08T17:54:47Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Lifelong Topological Visual Navigation [16.41858724205884]
本稿では,生涯ナビゲーション性能を時間とともに向上させるグラフ更新戦略を用いた学習型ビジュアルナビゲーション手法を提案する。
画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。
固定的なトレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境から比較的小さなデータセットを使ってモデルを微調整できることが示される。
論文 参考訳(メタデータ) (2021-10-16T06:16:14Z) - Semantic Image Alignment for Vehicle Localization [111.59616433224662]
単眼カメラからのセマンティックセグメンテーションを用いた高密度セマンティックマップにおける車両位置推定手法を提案する。
既存の視覚的ローカライゼーションアプローチとは対照的に、システムは追加のキーポイント機能、手作りのローカライゼーションランドマーク抽出器、高価なLiDARセンサーを必要としない。
論文 参考訳(メタデータ) (2021-10-08T14:40:15Z) - Generating Landmark Navigation Instructions from Maps as a Graph-to-Text
Problem [15.99072005190786]
OpenStreetMap表現を入力として取り、ナビゲーション命令の生成を学習するニューラルモデルを提示する。
われわれの研究は、ストリートビューで人間のナビゲーションによって検証された7,672件のクラウドソースインスタンスのデータセットに基づいている。
論文 参考訳(メタデータ) (2020-12-30T21:22:04Z) - Seeing the Un-Scene: Learning Amodal Semantic Maps for Room Navigation [143.6144560164782]
セマンティックマップを用いた室内ナビゲーションのための学習型アプローチを提案する。
我々は、部屋の位置、大きさ、形状の信念を示すアモーダルな意味的トップダウンマップを生成するためにモデルを訓練する。
次に、これらのマップを使用して、対象の部屋にある点を予測し、その点に向かうためのポリシーを訓練します。
論文 参考訳(メタデータ) (2020-07-20T02:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。