論文の概要: ChatGPT as a mapping assistant: A novel method to enrich maps with generative AI and content derived from street-level photographs
- arxiv url: http://arxiv.org/abs/2306.03204v2
- Date: Fri, 15 Mar 2024 16:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 07:42:00.912456
- Title: ChatGPT as a mapping assistant: A novel method to enrich maps with generative AI and content derived from street-level photographs
- Title(参考訳): マッピングアシスタントとしてのChatGPT:ストリートレベルの画像から得られた生成AIとコンテンツで地図を豊かにする新しい方法
- Authors: Levente Juhász, Peter Mooney, Hartwig H. Hochmair, Boyuan Guan,
- Abstract要約: ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。
GPT-3.5-turbo は OpenStreetMap (OSM) において各道路に最適なタグ付けを提案するよう指示された。
結果は、基礎となるAIモデルを変更することなく、マッピング提案の精度を効果的に向上する2つの方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the concept of leveraging generative AI as a mapping assistant for enhancing the efficiency of collaborative mapping. We present results of an experiment that combines multiple sources of volunteered geographic information (VGI) and large language models (LLMs). Three analysts described the content of crowdsourced Mapillary street-level photographs taken along roads in a small test area in Miami, Florida. GPT-3.5-turbo was instructed to suggest the most appropriate tagging for each road in OpenStreetMap (OSM). The study also explores the utilization of BLIP-2, a state-of-the-art multimodal pre-training method as an artificial analyst of street-level photographs in addition to human analysts. Results demonstrate two ways to effectively increase the accuracy of mapping suggestions without modifying the underlying AI models: by (1) providing a more detailed description of source photographs, and (2) combining prompt engineering with additional context (e.g. location and objects detected along a road). The first approach increases the suggestion accuracy by up to 29%, and the second one by up to 20%.
- Abstract(参考訳): 本稿では,コラボレーティブマッピングの効率を高めるために,生成AIをマッピングアシスタントとして活用するという概念について検討する。
本稿では,ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。
3人のアナリストは、フロリダ州マイアミの小さなテストエリアで道路に沿って撮影されたクラウドソースのMapillaryストリートレベルの写真の内容について説明した。
GPT-3.5-turbo は OpenStreetMap (OSM) で各道路に最適なタグ付けを提案するように指示された。
この研究は、人間の分析に加え、ストリートレベルの写真の人為的分析として、最先端のマルチモーダル事前学習手法であるBLIP-2の利用についても検討した。
その結果,(1)ソース画像のより詳細な記述を提供すること,(2)プロンプトエンジニアリングと追加のコンテキスト(例えば,道路に沿って検出された位置や物体)を組み合わせることで,AIモデルを変更することなく,マッピング提案の精度を効果的に向上する2つの方法が示された。
第1のアプローチでは提案精度を最大29%、第2のアプローチでは最大20%向上する。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Bird's-Eye View to Street-View: A Survey [16.90516098120805]
衛星画像からストリートビュー画像がどのように合成されるのかを概観するため、20の最近の研究論文をレビューした。
主な発見は, (i) より現実的で正確なストリートビュー画像の合成に新しいディープラーニング技術が必要であること, (ii) 公共利用のためにより多くのデータセットを収集する必要があること, (iii) 生成された画像を適切に評価するためには,より具体的な評価指標を検討する必要があること,である。
論文 参考訳(メタデータ) (2024-05-14T21:01:12Z) - Image-based Geolocalization by Ground-to-2.5D Map Matching [21.21416396311102]
地上視のクエリ画像と2Dマップをマッチングするために、クロスビューのローカライゼーション技術を利用することが多い。
マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。
本手法は,重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図のマッチングのための識別的位置埋め込みを学習する。
論文 参考訳(メタデータ) (2023-08-11T08:00:30Z) - Explainable GeoAI: Can saliency maps help interpret artificial
intelligence's learning process? An empirical study on natural feature
detection [4.52308938611108]
本稿では,GeoAIと深層学習モデルの推論行動の解釈において,一般的なサリエンシマップ生成手法とその長所と短所を比較した。
実験では、2つのGeoAI対応データセットを使用して、研究結果の一般化性を実証した。
論文 参考訳(メタデータ) (2023-03-16T21:37:29Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Deploying machine learning to assist digital humanitarians: making image
annotation in OpenStreetMap more efficient [72.44260113860061]
本稿では,OpenStreetMapにおけるボランティアの作業を支援し,最適化するためのインタラクティブな手法を提案する。
提案手法は,OSMのボランティアが検証・修正するために必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2020-09-17T10:05:30Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks [27.86228863466213]
単一エンドツーエンドのディープラーニングアーキテクチャを用いて,単分子画像から直接マップを推定する,シンプルで統一的なアプローチを提案する。
提案手法の有効性を,NuScenesとArgoverseデータセット上のいくつかの挑戦的ベースラインに対して評価することで実証する。
論文 参考訳(メタデータ) (2020-03-30T12:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。