論文の概要: A natural language processing-based approach: mapping human perception
by understanding deep semantic features in street view images
- arxiv url: http://arxiv.org/abs/2311.17354v1
- Date: Wed, 29 Nov 2023 05:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:43:39.878046
- Title: A natural language processing-based approach: mapping human perception
by understanding deep semantic features in street view images
- Title(参考訳): 自然言語処理に基づくアプローチ:ストリートビュー画像における深い意味的特徴の理解による人間知覚のマッピング
- Authors: Haoran Ma and Dongdong Wu
- Abstract要約: 本研究では,人間の知覚とシーンの関係を理解するために,事前学習型自然言語モデルに基づく新しいフレームワークを提案する。
以上の結果から, 深い意味的特徴による人間の知覚評価は, 浅い特徴を持つ機械学習手法による従来の研究よりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 2.5880672192855414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the past decade, using Street View images and machine learning to measure
human perception has become a mainstream research approach in urban science.
However, this approach using only image-shallow information makes it difficult
to comprehensively understand the deep semantic features of human perception of
a scene. In this study, we proposed a new framework based on a pre-train
natural language model to understand the relationship between human perception
and the sense of a scene. Firstly, Place Pulse 2.0 was used as our base
dataset, which contains a variety of human-perceived labels, namely, beautiful,
safe, wealthy, depressing, boring, and lively. An image captioning network was
used to extract the description information of each street view image.
Secondly, a pre-trained BERT model was finetuning and added a regression
function for six human perceptual dimensions. Furthermore, we compared the
performance of five traditional regression methods with our approach and
conducted a migration experiment in Hong Kong. Our results show that human
perception scoring by deep semantic features performed better than previous
studies by machine learning methods with shallow features. The use of deep
scene semantic features provides new ideas for subsequent human perception
research, as well as better explanatory power in the face of spatial
heterogeneity.
- Abstract(参考訳): 過去10年間、ストリートビュー画像と機械学習を使って人間の知覚を測定することは、都市科学における主要な研究手法となっている。
しかし,この手法では,シーンの人間知覚の深い意味的特徴を包括的に理解することは困難である。
本研究では,人間の知覚とシーンの感覚との関係を理解するために,事前学習した自然言語モデルに基づく新しい枠組みを提案する。
まず、Place Pulse 2.0がベースデータセットとして使われ、そこには、美しく、安全で、富裕で、落ち込んで、退屈で、生き生きとした、さまざまな人間が知覚するラベルが含まれています。
各ストリートビュー画像の記述情報を抽出するために,画像キャプションネットワークを用いた。
第2に、事前学習したBERTモデルが微調整され、6つの人間の知覚次元に対する回帰関数が追加された。
さらに,従来の5つの回帰手法の性能を我々のアプローチと比較し,香港でのマイグレーション実験を行った。
その結果,深い意味的特徴による人間の知覚スコアリングは,浅い特徴を持つ機械学習手法による従来の研究よりも優れていた。
深部シーンのセマンティックな特徴の使用は、その後の人間の知覚研究のための新しいアイデアと、空間的不均一性に直面した説明力を提供する。
関連論文リスト
- Semantic-Human: Neural Rendering of Humans from Monocular Video with
Human Parsing [14.264835399504376]
本稿では,人間のニューラルレンダリングのためのフォトリアリスティックな詳細と視点一貫性を持った人間のパーシングを実現する新しい方法であるSemantic-Humanを紹介する。
具体的には、ニューラルレイディアンス場(NeRF)を拡張して、セマンティクス、外観、形状を共同で符号化し、正確な2次元セマンティクスラベルを実現する。
また,ラベルの復調,ラベルの合成,画像編集など,魅力的な応用も紹介する。
論文 参考訳(メタデータ) (2023-08-19T03:18:19Z) - Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding [87.39245901710079]
我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
論文 参考訳(メタデータ) (2022-12-14T01:37:16Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。
我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。
実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文 参考訳(メタデータ) (2021-06-25T13:32:23Z) - Learning High Fidelity Depths of Dressed Humans by Watching Social Media
Dance Videos [21.11427729302936]
本稿では,その人物の予測された局所形状を,別の瞬間に画像から別の画像へ警告する局所変換を用いた新しい手法を提案する。
本手法はエンドツーエンドで訓練可能であり,入力実画像に忠実な微細形状を予測できる高忠実度深さ推定を行う。
論文 参考訳(メタデータ) (2021-03-04T20:46:30Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。