論文の概要: ChatGPT as a mapping assistant: A novel method to enrich maps with
generative AI and content derived from street-level photographs
- arxiv url: http://arxiv.org/abs/2306.03204v1
- Date: Mon, 5 Jun 2023 19:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 18:39:53.287617
- Title: ChatGPT as a mapping assistant: A novel method to enrich maps with
generative AI and content derived from street-level photographs
- Title(参考訳): マッピングアシスタントとしてのChatGPT:ストリートレベルの画像から得られた生成AIとコンテンツで地図を豊かにする新しい方法
- Authors: Levente Juh\'asz and Peter Mooney and Hartwig H. Hochmair and Boyuan
Guan
- Abstract要約: ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。
GPT-3.5-turbo は OpenStreetMap (OSM) において各道路に最適なタグ付けを提案するよう指示された。
結果は、基礎となるAIモデルを変更することなく、マッピング提案の精度を効果的に向上する2つの方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the concept of leveraging generative AI as a mapping
assistant for enhancing the efficiency of collaborative mapping. We present
results of an experiment that combines multiple sources of volunteered
geographic information (VGI) and large language models (LLMs). Three analysts
described the content of crowdsourced Mapillary street-level photographs taken
along roads in a small test area in Miami, Florida. GPT-3.5-turbo was
instructed to suggest the most appropriate tagging for each road in
OpenStreetMap (OSM). The study also explores the utilization of BLIP-2, a
state-of-the-art multimodal pre-training method as an artificial analyst of
street-level photographs in addition to human analysts. Results demonstrate two
ways to effectively increase the accuracy of mapping suggestions without
modifying the underlying AI models: by (1) providing a more detailed
description of source photographs, and (2) combining prompt engineering with
additional context (e.g. location and objects detected along a road). The first
approach increases the suggestion accuracy by up to 29%, and the second one by
up to 20%.
- Abstract(参考訳): 本稿では,コラボレーティブマッピングの効率を高めるために,生成AIをマッピングアシスタントとして活用するという概念について検討する。
本稿では,ボランティア地理情報(VGI)と大規模言語モデル(LLM)を組み合わせた実験結果について述べる。
3人のアナリストは、フロリダ州マイアミの小さなテストエリアで道路に沿って撮影されたクラウドソースのMapillaryストリートレベルの写真の内容について説明した。
GPT-3.5-turbo は OpenStreetMap (OSM) で各道路に最適なタグ付けを提案するように指示された。
この研究はまた、人間の分析に加えて、街頭写真の人工分析として最先端のマルチモーダル事前学習法であるblip-2の利用についても研究している。
その結果,(1)ソース画像のより詳細な記述を提供すること,(2)プロンプトエンジニアリングと追加のコンテキスト(道路沿いに検出された位置や物体など)を組み合わせることで,基礎となるaiモデルを変更することなく,地図提案の精度を効果的に向上させる方法が2つ示されている。
第1のアプローチでは提案精度を最大29%,第2のアプローチを最大20%向上させる。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Bird's-Eye View to Street-View: A Survey [16.90516098120805]
衛星画像からストリートビュー画像がどのように合成されるのかを概観するため、20の最近の研究論文をレビューした。
主な発見は, (i) より現実的で正確なストリートビュー画像の合成に新しいディープラーニング技術が必要であること, (ii) 公共利用のためにより多くのデータセットを収集する必要があること, (iii) 生成された画像を適切に評価するためには,より具体的な評価指標を検討する必要があること,である。
論文 参考訳(メタデータ) (2024-05-14T21:01:12Z) - Image-based Geolocalization by Ground-to-2.5D Map Matching [21.21416396311102]
地上視のクエリ画像と2Dマップをマッチングするために、クロスビューのローカライゼーション技術を利用することが多い。
マルチモーダルデータから代表埋め込みを学習するための新しい手法を提案する。
本手法は,重要な幾何学的手がかりを符号化することにより,パノラマ画像と地図のマッチングのための識別的位置埋め込みを学習する。
論文 参考訳(メタデータ) (2023-08-11T08:00:30Z) - Explainable GeoAI: Can saliency maps help interpret artificial
intelligence's learning process? An empirical study on natural feature
detection [4.52308938611108]
本稿では,GeoAIと深層学習モデルの推論行動の解釈において,一般的なサリエンシマップ生成手法とその長所と短所を比較した。
実験では、2つのGeoAI対応データセットを使用して、研究結果の一般化性を実証した。
論文 参考訳(メタデータ) (2023-03-16T21:37:29Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Deploying machine learning to assist digital humanitarians: making image
annotation in OpenStreetMap more efficient [72.44260113860061]
本稿では,OpenStreetMapにおけるボランティアの作業を支援し,最適化するためのインタラクティブな手法を提案する。
提案手法は,OSMのボランティアが検証・修正するために必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2020-09-17T10:05:30Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks [27.86228863466213]
単一エンドツーエンドのディープラーニングアーキテクチャを用いて,単分子画像から直接マップを推定する,シンプルで統一的なアプローチを提案する。
提案手法の有効性を,NuScenesとArgoverseデータセット上のいくつかの挑戦的ベースラインに対して評価することで実証する。
論文 参考訳(メタデータ) (2020-03-30T12:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。