論文の概要: Placepedia: Comprehensive Place Understanding with Multi-Faceted
Annotations
- arxiv url: http://arxiv.org/abs/2007.03777v4
- Date: Fri, 17 Jul 2020 08:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 19:07:11.215288
- Title: Placepedia: Comprehensive Place Understanding with Multi-Faceted
Annotations
- Title(参考訳): Placepedia: 多面アノテーションによる総合的な場所理解
- Authors: Huaiyi Huang, Yuqi Zhang, Qingqiu Huang, Zhengkui Guo, Ziwei Liu, and
Dahua Lin
- Abstract要約: Placepediaは、240万のユニークな場所から3500万枚以上の写真を集めた大規模な場所データセットです。
写真に加えて、各場所にはGDP、人口など、膨大な多面的な情報も付属している。
このデータセットは大量のデータと豊富なアノテーションを持ち、様々な研究を行うことができる。
- 参考スコア(独自算出の注目度): 79.80036503792985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Place is an important element in visual understanding. Given a photo of a
building, people can often tell its functionality, e.g. a restaurant or a shop,
its cultural style, e.g. Asian or European, as well as its economic type, e.g.
industry oriented or tourism oriented. While place recognition has been widely
studied in previous work, there remains a long way towards comprehensive place
understanding, which is far beyond categorizing a place with an image and
requires information of multiple aspects. In this work, we contribute
Placepedia, a large-scale place dataset with more than 35M photos from 240K
unique places. Besides the photos, each place also comes with massive
multi-faceted information, e.g. GDP, population, etc., and labels at multiple
levels, including function, city, country, etc.. This dataset, with its large
amount of data and rich annotations, allows various studies to be conducted.
Particularly, in our studies, we develop 1) PlaceNet, a unified framework for
multi-level place recognition, and 2) a method for city embedding, which can
produce a vector representation for a city that captures both visual and
multi-faceted side information. Such studies not only reveal key challenges in
place understanding, but also establish connections between visual observations
and underlying socioeconomic/cultural implications.
- Abstract(参考訳): 場所は視覚理解の重要な要素である。
建物の写真が与えられると、人々はしばしばその機能、例えばレストランや店、その文化的スタイル、例えばアジアやヨーロッパ、そしてその経済タイプ、例えば産業指向や観光志向を語ることができる。
場所認識は以前の研究で広く研究されてきたが、総合的な場所理解にはまだまだ長い道のりが残っており、それは画像のある場所を分類する以上のものであり、複数の側面の情報を必要とする。
本研究では,240Kのユニークな場所から3500万枚以上の写真を集めた大規模な場所データセットであるPlacepediaをコントリビュートする。
写真以外にも、GDP、人口など、大量の多面的情報や、機能、都市、国など、複数のレベルのラベルが提供されている。
このデータセットは大量のデータと豊富なアノテーションを持ち、様々な研究を行うことができる。
特に私たちの研究では
1) 多レベル位置認識のための統一フレームワークplacenetおよび
2) 視覚的側面情報と多面的側面情報の両方をキャプチャする都市のためのベクトル表現を生成することができる都市埋め込みの方法。
このような研究は、場所の理解において重要な課題を明らかにするだけでなく、視覚的観察と基礎となる社会経済的・文化的含意との関係も明らかにしている。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Where We Are and What We're Looking At: Query Based Worldwide Image
Geo-localization Using Hierarchies and Scenes [53.53712888703834]
地理的レベルの異なる関係を利用して、エンドツーエンドのトランスフォーマーベースのアーキテクチャを導入する。
4つの標準ジオローカライゼーションデータセット上で,アートストリートレベルの精度を実現する。
論文 参考訳(メタデータ) (2023-03-07T21:47:58Z) - Building Floorspace in China: A Dataset and Learning Pipeline [0.32228025627337864]
本稿は、中国40大都市における建物の床面積を計測する最初のマイルストーンを提供する。
我々は、メインデータソースとしてSentinel-1と-2の衛星画像を使用する。
データ、アルゴリズム、評価の詳細な説明を提供する。
論文 参考訳(メタデータ) (2023-03-03T21:45:36Z) - There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。
我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。
我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文 参考訳(メタデータ) (2022-03-01T21:52:08Z) - Deep-learning coupled with novel classification method to classify the
urban environment of the developing world [4.819654695540227]
本稿では,機械解析に容易に利用できる新しい分類法を提案し,開発途上国における方法論の適用性を示す。
周辺を考慮に入れた非公式・形式的な空間の観点から都市部を分類する。
このモデルは75%の精度と60%のMean IoUでセグメント化できる。
論文 参考訳(メタデータ) (2020-11-25T16:08:07Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Location Sensitive Image Retrieval and Tagging [10.832389603397603]
LocSensは画像、タグ、座標の三つ子を可視性でランク付けするモデルである。
LocSensは画像、タグ、座標の三重項を可視性でランク付けするモデルであり、最終的なランク付けにおける位置の影響をバランス付けるための2つのトレーニング戦略である。
論文 参考訳(メタデータ) (2020-07-07T12:09:01Z) - A Survey on Knowledge Graphs: Representation, Acquisition and
Applications [89.78089494738002]
我々は,1)知識グラフ表現学習,2)知識獲得と完成,3)時間的知識グラフ,および4)知識認識アプリケーションに関する研究トピックをレビューする。
知識獲得、特に知識グラフの完成、埋め込み方法、経路推論、論理ルール推論について概観する。
メタラーニング、コモンセンス推論、時間的知識グラフなど、いくつかの新しいトピックを探求する。
論文 参考訳(メタデータ) (2020-02-02T13:17:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。