論文の概要: Explainability of Deep Learning models for Urban Space perception
- arxiv url: http://arxiv.org/abs/2208.13555v1
- Date: Mon, 29 Aug 2022 12:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:11:51.981744
- Title: Explainability of Deep Learning models for Urban Space perception
- Title(参考訳): 都市空間知覚のための深層学習モデルの説明可能性
- Authors: Ruben Sangers, Jan van Gemert, Sander van Cranenburgh
- Abstract要約: 本研究では,都市空間に対する人々の認識に関する政策情報を,コンピュータビジョンモデルを用いて抽出する方法について検討した。
私たちは、畳み込みニューラルネットワークとトランスフォーマーという、2つの広く使われているコンピュータビジョンアーキテクチャをトレーニングし、よく知られた説明可能なAIテクニックであるGradCAMを適用して、モデルの予測に重要な画像領域を強調します。
- 参考スコア(独自算出の注目度): 9.422663267011913
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep learning based computer vision models are increasingly used by urban
planners to support decision making for shaping urban environments. Such models
predict how people perceive the urban environment quality in terms of e.g. its
safety or beauty. However, the blackbox nature of deep learning models hampers
urban planners to understand what landscape objects contribute to a
particularly high quality or low quality urban space perception. This study
investigates how computer vision models can be used to extract relevant policy
information about peoples' perception of the urban space. To do so, we train
two widely used computer vision architectures; a Convolutional Neural Network
and a transformer, and apply GradCAM -- a well-known ex-post explainable AI
technique -- to highlight the image regions important for the model's
prediction. Using these GradCAM visualizations, we manually annotate the
objects relevant to the models' perception predictions. As a result, we are
able to discover new objects that are not represented in present object
detection models used for annotation in previous studies. Moreover, our
methodological results suggest that transformer architectures are better suited
to be used in combination with GradCAM techniques. Code is available on Github.
- Abstract(参考訳): 深層学習に基づくコンピュータビジョンモデルは、都市環境形成のための意思決定を支援するために、都市プランナーによってますます使われている。
このようなモデルは、例えば安全性や美しさの観点から、人々が都市環境の質をどのように知覚するかを予測する。
しかし、深層学習モデルのブラックボックスの性質は、ランドスケープオブジェクトが特に高品質または低品質の都市空間知覚にどのような寄与するかを理解するために都市プランナーを悩ませている。
本研究では,都市空間に対する人々の認識に関する政策情報を,コンピュータビジョンモデルを用いて抽出する方法を検討する。
そのために、畳み込みニューラルネットワークとトランスフォーマーという2つの広く使われているコンピュータビジョンアーキテクチャをトレーニングし、よく知られた説明可能なAIテクニックであるGradCAMを適用して、モデルの予測に重要な画像領域を強調します。
これらのGradCAM視覚化を用いて、モデルの知覚予測に関連するオブジェクトを手動でアノテートする。
その結果、従来の研究でアノテーションに用いた現在のオブジェクト検出モデルでは表現されていない新しいオブジェクトを発見できる。
さらに,本手法は,GradCAM技術と組み合わせて使用するのに適したトランスフォーマーアーキテクチャであることが示唆された。
コードはgithubで入手できる。
関連論文リスト
- UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation
and Diffusion Models [0.0]
本稿では,都市デザインへの包括的アプローチとして,高度な画像分割と拡散モデルの相乗効果を活用するために,プロトタイプアプリケーション内にカプセル化された新しいワークフローを提案する。
評価の結果,プロトタイプアプリケーションによる高い性能を示し,オブジェクト検出とテキスト・ツー・イメージ生成の両面で有意な精度を示した。
予備試験には、デザイン教育における学習経験を高める教育ツールとしてのUrbanGenAIの活用と、コミュニティ主導の都市計画を促進する参加型機器の活用が含まれていた。
論文 参考訳(メタデータ) (2024-01-25T18:30:46Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Neural architecture impact on identifying temporally extended
Reinforcement Learning tasks [0.0]
Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。
注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。
さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
論文 参考訳(メタデータ) (2023-10-04T21:09:19Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Perception Visualization: Seeing Through the Eyes of a DNN [5.9557391359320375]
我々は、Grad-CAMのような現在の説明方法と本質的に異なる、新しい説明形式を開発する。
知覚可視化は、DNNが入力画像で知覚するものの視覚的表現を提供する。
ユーザスタディの結果から,認識の可視化が可能になった場合,人間がシステムの判断をよりよく理解し,予測できることが示される。
論文 参考訳(メタデータ) (2022-04-21T07:18:55Z) - Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。
NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。
提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文 参考訳(メタデータ) (2022-02-24T01:31:29Z) - Deep Learning for Spatiotemporal Modeling of Urbanization [21.677957140614556]
都市化は世界中の人口の健康と幸福に強い影響を与えている。
多くの空間モデルが機械学習と数値モデリング技術を用いて開発されている。
本稿では,都市化予測モデルにおける深層空間学習の能力について考察する。
論文 参考訳(メタデータ) (2021-12-17T18:27:52Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - GANs for Urban Design [0.0]
本論文で検討されたトピックは、都市ブロックの設計にGenerative Adversarial Networksを応用することである。
この研究は、都市の形態学的特性に適応できる柔軟なモデルを提示する。
論文 参考訳(メタデータ) (2021-05-04T19:50:24Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。