Fugu-MT 論文翻訳(概要): Learning a Dynamic Map of Visual Appearance

論文の概要: Learning a Dynamic Map of Visual Appearance

arxiv url: http://arxiv.org/abs/2012.14885v1
Date: Tue, 29 Dec 2020 18:23:56 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-18 20:36:05.794091
Title: Learning a Dynamic Map of Visual Appearance
Title（参考訳）: 視覚的外観のダイナミックマップの学習
Authors: Tawfiq Salem, Scott Workman, Nathan Jacobs
Abstract要約: 数十億の画像を用いて、視覚的外観特性のグローバルかつダイナミックなマップを構築することを提案する。提案手法は,多種多様な視覚特性をマッピング可能な一般的なフレームワークに,高密度なオーバーヘッド画像と位置情報と時間メタデータを統合する。このアプローチは、画像駆動マッピング、画像ジオローカリゼーション、メタデータ検証など、さまざまなアプリケーションをサポートする方法を示しています。
参考スコア（独自算出の注目度）: 33.428135914984445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The appearance of the world varies dramatically not only from place to place but also from hour to hour and month to month. Every day billions of images capture this complex relationship, many of which are associated with precise time and location metadata. We propose to use these images to construct a global-scale, dynamic map of visual appearance attributes. Such a map enables fine-grained understanding of the expected appearance at any geographic location and time. Our approach integrates dense overhead imagery with location and time metadata into a general framework capable of mapping a wide variety of visual attributes. A key feature of our approach is that it requires no manual data annotation. We demonstrate how this approach can support various applications, including image-driven mapping, image geolocalization, and metadata verification.
Abstract（参考訳）: 世界の外観は、場所によって大きく変化し、時間・時間・月によっても劇的に変化する。毎日何十億もの画像がこの複雑な関係を捉えており、その多くが正確な時間と位置のメタデータに関連付けられている。本稿では,これらの画像を用いて視覚的特徴のグローバルな動的マップを構築することを提案する。そのような写像は、任意の地理的位置と時間における期待される外観のきめ細かい理解を可能にする。提案手法は,多種多様な視覚特性をマッピング可能な一般的なフレームワークに,高密度なオーバーヘッド画像と位置情報と時間メタデータを統合する。このアプローチの重要な特徴は、手動のデータアノテーションを必要としないことです。本稿では、画像駆動マッピング、画像ジオローカライゼーション、メタデータ検証など、このアプローチが様々なアプリケーションをどのようにサポートするかを示す。

関連論文リスト

RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
MapGlue: Multimodal Remote Sensing Image Matching [12.376931699274062]
マルチモーダルリモートセンシング画像(MRSI)マッチングは、クロスモーダル融合、ローカライゼーション、オブジェクト検出において重要である。既存のユニモーダルデータセットにはスケールと多様性がなく、ディープラーニングソリューションに制限がある。本稿では,汎用MRSIマッチングフレームワークであるMapGlueと,これらのギャップに対処する大規模マルチモーダルデータセットであるMapDataを提案する。
論文参考訳（メタデータ） (2025-03-20T14:36:16Z)
Maps from Motion (MfM): Generating 2D Semantic Maps from Sparse Multi-view Images [17.992488467380923]
OpenStreetMapは、1100万人の登録ユーザーが手動でGPSの位置情報に157億以上のエントリをアノテートした結果である。同時に、手動のアノテーションにはエラーが含まれ、更新が遅く、マップの精度が制限される。動きからのマップ (MfM) は、非校正された多視点画像のコレクションから直接意味オブジェクトの2Dマップを計算することにより、そのような時間を要する地図作成手順を自動化するためのステップである。
論文参考訳（メタデータ） (2024-11-19T16:27:31Z)
OpenStreetView-5M: The Many Roads to Global Visual Geolocation [16.468438245804684]
我々は5100万以上のジオレファレンスストリートビュー画像からなる大規模オープンアクセスデータセットOpenStreetView-5Mを紹介した。既存のベンチマークとは対照的に、厳格な列車/テスト分離を強制し、学習された地理的特徴の関連性を評価する。データセットの有用性を実証するために,様々な最先端の画像エンコーダ,空間表現,トレーニング戦略の広範なベンチマークを行う。
論文参考訳（メタデータ） (2024-04-29T17:06:44Z)
SceneGraphLoc: Cross-Modal Coarse Visual Localization on 3D Scene Graphs [81.2396059480232]
SceneGraphLocはシーングラフ内の各ノード(つまりオブジェクトインスタンスを表す)に対する固定サイズの埋め込みを学習する。画像を利用する場合、SceneGraphLocは、大規模な画像データベースに依存する最先端技術に近いパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-30T20:25:16Z)
Mapping High-level Semantic Regions in Indoor Environments without Object Recognition [50.624970503498226]
本研究では,屋内環境における埋め込みナビゲーションによる意味領域マッピング手法を提案する。地域識別を実現するために,視覚言語モデルを用いて地図作成のためのシーン情報を提供する。グローバルなフレームにエゴセントリックなシーン理解を投影することにより、提案手法は各場所の可能な領域ラベル上の分布としてのセマンティックマップを生成する。
論文参考訳（メタデータ） (2024-03-11T18:09:50Z)
CurriculumLoc: Enhancing Cross-Domain Geolocalization through Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文参考訳（メタデータ） (2023-11-20T08:40:01Z)
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization [61.10806364001535]
世界規模のジオローカライゼーションは、地球上のどこでも撮影された画像の正確な位置を特定することを目的としている。既存のアプローチは、地球を離散的な地理的細胞に分割し、問題を分類タスクに変換する。画像と対応するGPS位置のアライメントを強制する新しいCLIPにインスパイアされた画像-GPS検索手法であるGeoCLIPを提案する。
論文参考訳（メタデータ） (2023-09-27T20:54:56Z)
Are Local Features All You Need for Cross-Domain Visual Place Recognition? [13.519413608607781]
視覚的位置認識は、視覚的手がかりのみに基づいて画像の座標を予測することを目的としている。近年の進歩にもかかわらず、クエリがかなり異なる分布から来るのと同じ場所を認識することは、依然として最先端の検索手法にとって大きなハードルである。本研究では,空間的検証に基づく手法がこれらの課題に対処できるかどうかを考察する。
論文参考訳（メタデータ） (2023-04-12T14:46:57Z)
Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。 4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文参考訳（メタデータ） (2023-03-07T21:47:58Z)
An Automatic Approach for Generating Rich, Linked Geo-Metadata from Historical Map Images [6.962949867017594]
本稿では,歴史地図画像の検索と索引付けの現実的問題に対処するエンド・ツー・エンドのアプローチを提案する。我々はmapKuratorと呼ばれるシステムでこのアプローチを実装した。
論文参考訳（メタデータ） (2021-12-03T01:44:38Z)
Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文参考訳（メタデータ） (2020-12-02T18:19:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。