Fugu-MT 論文翻訳(概要): Explainability of Deep Learning models for Urban Space perception

論文の概要: Explainability of Deep Learning models for Urban Space perception

arxiv url: http://arxiv.org/abs/2208.13555v1
Date: Mon, 29 Aug 2022 12:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 14:11:51.981744
Title: Explainability of Deep Learning models for Urban Space perception
Title（参考訳）: 都市空間知覚のための深層学習モデルの説明可能性
Authors: Ruben Sangers, Jan van Gemert, Sander van Cranenburgh
Abstract要約: 本研究では,都市空間に対する人々の認識に関する政策情報を,コンピュータビジョンモデルを用いて抽出する方法について検討した。私たちは、畳み込みニューラルネットワークとトランスフォーマーという、2つの広く使われているコンピュータビジョンアーキテクチャをトレーニングし、よく知られた説明可能なAIテクニックであるGradCAMを適用して、モデルの予測に重要な画像領域を強調します。
参考スコア（独自算出の注目度）: 9.422663267011913
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Deep learning based computer vision models are increasingly used by urban planners to support decision making for shaping urban environments. Such models predict how people perceive the urban environment quality in terms of e.g. its safety or beauty. However, the blackbox nature of deep learning models hampers urban planners to understand what landscape objects contribute to a particularly high quality or low quality urban space perception. This study investigates how computer vision models can be used to extract relevant policy information about peoples' perception of the urban space. To do so, we train two widely used computer vision architectures; a Convolutional Neural Network and a transformer, and apply GradCAM -- a well-known ex-post explainable AI technique -- to highlight the image regions important for the model's prediction. Using these GradCAM visualizations, we manually annotate the objects relevant to the models' perception predictions. As a result, we are able to discover new objects that are not represented in present object detection models used for annotation in previous studies. Moreover, our methodological results suggest that transformer architectures are better suited to be used in combination with GradCAM techniques. Code is available on Github.
Abstract（参考訳）: 深層学習に基づくコンピュータビジョンモデルは、都市環境形成のための意思決定を支援するために、都市プランナーによってますます使われている。このようなモデルは、例えば安全性や美しさの観点から、人々が都市環境の質をどのように知覚するかを予測する。しかし、深層学習モデルのブラックボックスの性質は、ランドスケープオブジェクトが特に高品質または低品質の都市空間知覚にどのような寄与するかを理解するために都市プランナーを悩ませている。本研究では,都市空間に対する人々の認識に関する政策情報を,コンピュータビジョンモデルを用いて抽出する方法を検討する。そのために、畳み込みニューラルネットワークとトランスフォーマーという2つの広く使われているコンピュータビジョンアーキテクチャをトレーニングし、よく知られた説明可能なAIテクニックであるGradCAMを適用して、モデルの予測に重要な画像領域を強調します。これらのGradCAM視覚化を用いて、モデルの知覚予測に関連するオブジェクトを手動でアノテートする。その結果、従来の研究でアノテーションに用いた現在のオブジェクト検出モデルでは表現されていない新しいオブジェクトを発見できる。さらに,本手法は,GradCAM技術と組み合わせて使用するのに適したトランスフォーマーアーキテクチャであることが示唆された。コードはgithubで入手できる。

関連論文リスト

Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation [75.30238170051291]
深さ推定は3Dコンピュータビジョンの基本課題であり、3D再構成、自由視点レンダリング、ロボティクス、自律運転、AR/VR技術といった応用に不可欠である。 LiDARのようなハードウェアセンサーに依存する従来の方法は、しばしば高コスト、低解像度、環境感度によって制限され、現実のシナリオで適用性を制限する。ビジョンベースの手法の最近の進歩は有望な代替手段を提供するが、低容量モデルアーキテクチャやドメイン固有の小規模データセットへの依存のため、一般化と安定性の課題に直面している。
論文参考訳（メタデータ） (2025-07-15T17:59:59Z)
TopView: Vectorising road users in a bird's eye view from uncalibrated street-level imagery with deep learning [2.7195102129095003]
本研究では、カメラの内在的・外在的パラメータを事前に把握せずに、画像から鳥の視線を推定するための簡単なアプローチを提案する。このフレームワークは、カメラフィードからライブマップを生成し、都市規模での社会的距離違反を分析するために、いくつかのアプリケーションに適用されている。
論文参考訳（メタデータ） (2024-12-18T21:55:58Z)
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文参考訳（メタデータ） (2024-08-27T16:22:18Z)
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2024-06-13T17:59:20Z)
TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文参考訳（メタデータ） (2024-05-04T21:55:33Z)
SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients [0.8873228457453465]
空中画像における小さな物体検出は、コンピュータビジョンにおいて重要な課題である。トランスフォーマーベースのモデルを用いた従来の手法は、特殊データベースの欠如に起因する制限に直面していることが多い。本稿では,小型空中物体の検出とセグメンテーション機能を大幅に向上する2つの革新的なアプローチを紹介する。
論文参考訳（メタデータ） (2024-05-02T19:47:08Z)
UrbanGenAI: Reconstructing Urban Landscapes using Panoptic Segmentation and Diffusion Models [0.0]
本稿では,都市デザインへの包括的アプローチとして,高度な画像分割と拡散モデルの相乗効果を活用するために,プロトタイプアプリケーション内にカプセル化された新しいワークフローを提案する。評価の結果,プロトタイプアプリケーションによる高い性能を示し,オブジェクト検出とテキスト・ツー・イメージ生成の両面で有意な精度を示した。予備試験には、デザイン教育における学習経験を高める教育ツールとしてのUrbanGenAIの活用と、コミュニティ主導の都市計画を促進する参加型機器の活用が含まれていた。
論文参考訳（メタデータ） (2024-01-25T18:30:46Z)
Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-26T06:05:12Z)
Neural architecture impact on identifying temporally extended Reinforcement Learning tasks [0.0]
Intention based architectures in reinforcement learning (RL) domain, which can be good performance on OpenAI Gym Atari-2600 game suite。注意に基づくモデルでは、イメージへの注意マップの抽出とオーバーレイにより、エージェントがアクションを選択するために使用する情報の直接観察が可能になる。さらに、視覚変換器を用いた注意に基づく映像分類モデルの開発により、画像ベースRLドメインにも視覚変換器をベースとしたアーキテクチャが考案された。
論文参考訳（メタデータ） (2023-10-04T21:09:19Z)
Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-28T18:42:27Z)
Learning Multi-Object Dynamics with Compositional Neural Radiance Fields [63.424469458529906]
本稿では,暗黙的オブジェクトエンコーダ,ニューラルレージアンスフィールド(NeRF),グラフニューラルネットワークに基づく画像観測から構成予測モデルを学習する手法を提案する。 NeRFは3D以前の強みから、シーンを表現するための一般的な選択肢となっている。提案手法では,学習した潜時空間にRTを応用し,そのモデルと暗黙のオブジェクトエンコーダを用いて潜時空間を情報的かつ効率的にサンプリングする。
論文参考訳（メタデータ） (2022-02-24T01:31:29Z)
Deep Learning for Spatiotemporal Modeling of Urbanization [21.677957140614556]
都市化は世界中の人口の健康と幸福に強い影響を与えている。多くの空間モデルが機械学習と数値モデリング技術を用いて開発されている。本稿では,都市化予測モデルにおける深層空間学習の能力について考察する。
論文参考訳（メタデータ） (2021-12-17T18:27:52Z)
3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文参考訳（メタデータ） (2021-07-08T17:49:37Z)
Learning Predictive Representations for Deformable Objects Using Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文参考訳（メタデータ） (2020-03-11T17:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。