論文の概要: Cross-Modal Learning of Housing Quality in Amsterdam
- arxiv url: http://arxiv.org/abs/2403.08915v1
- Date: Wed, 13 Mar 2024 19:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:37:06.312674
- Title: Cross-Modal Learning of Housing Quality in Amsterdam
- Title(参考訳): アムステルダムにおける住宅品質のクロスモーダル学習
- Authors: Alex Levering, Diego Marcos, Devis Tuia,
- Abstract要約: アムステルダムの住宅品質を地上および空中画像から認識するためのデータとモデルをテストする。
地上レベルの画像については、Google StreetView(GSV)とFlickrイメージを比較します。
以上の結果から,GSVは空中画像のみを用いた場合よりも約30%高い精度で構築品質を予測できることがわかった。
- 参考スコア(独自算出の注目度): 7.316396716394438
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In our research we test data and models for the recognition of housing quality in the city of Amsterdam from ground-level and aerial imagery. For ground-level images we compare Google StreetView (GSV) to Flickr images. Our results show that GSV predicts the most accurate building quality scores, approximately 30% better than using only aerial images. However, we find that through careful filtering and by using the right pre-trained model, Flickr image features combined with aerial image features are able to halve the performance gap to GSV features from 30% to 15%. Our results indicate that there are viable alternatives to GSV for liveability factor prediction, which is encouraging as GSV images are more difficult to acquire and not always available.
- Abstract(参考訳): 本研究では,アムステルダム市における住宅の質の認識のためのデータとモデルについて,地上画像と空中画像から検証した。
地上レベルの画像については、Google StreetView(GSV)とFlickrイメージを比較します。
以上の結果から,GSVは空中画像のみを用いた場合よりも約30%高い精度で構築品質を予測できることがわかった。
しかし、慎重にフィルタリングし、適切な事前訓練モデルを使用することで、Flickrの画像機能と空中画像機能を組み合わせることで、GSV機能のパフォーマンスギャップを30%から15%に半減できることがわかった。
以上の結果から,GSV画像の取得が困難であり,必ずしも利用できないため,生存率予測に有効な代替手段があることが示唆された。
関連論文リスト
- Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - A citizen science toolkit to collect human perceptions of urban environments using open street view images [0.20999222360659603]
ストリートビュー画像(SVI)は、研究(環境評価、緑地識別、土地被覆分類など)に有用なデータソースである。
オープンなSVIデータセットは、Mapillaryのような制限の少ないソースから容易に利用できる。
オープンなSVIを自動ダウンロード、処理、収穫、フィルタリングする効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-02-29T22:58:13Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Danish Airs and Grounds: A Dataset for Aerial-to-Street-Level Place
Recognition and Localization [9.834635805575584]
我々は,この事例を対象とする道路や航空画像の大規模な収集であるemphDanish Airs and Groundsデータセットにコントリビュートする。
データセットは、都市部、郊外部、農村部で50km以上の道路を含む、現在利用可能なデータよりも大きく、多様である。
そこで本研究では,まず空中画像から高密度な3次元再構成を推定し,検索したストリートレベルの画像と3次元モデルのストリートレベルのレンダリングをマッチングするマップ・ツー・イメージ再配置パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-03T19:58:09Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Aerial Imagery Pixel-level Segmentation [0.4079265319364249]
一般的なデータセットと空中画像データの間にパフォーマンスギャップを埋める。
私たちの研究は、最先端のDeepLabv3+ Xception65アーキテクチャを使用して、DroneDeployバリデーションセットで平均70%のIOUを実現しています。
論文 参考訳(メタデータ) (2020-12-03T16:09:09Z) - Bounding Boxes Are All We Need: Street View Image Classification via
Context Encoding of Detected Buildings [7.1235778791928634]
「Detector-Encoder-Classifier」フレームワークが提案されている。
BEAUTY"データセットは、ストリートビューイメージの分類だけでなく、マルチクラスのビルディング検出にも利用できる。
論文 参考訳(メタデータ) (2020-10-03T08:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。