論文の概要: Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images
- arxiv url: http://arxiv.org/abs/2407.19719v2
- Date: Mon, 5 Aug 2024 12:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:59:40.931696
- Title: Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images
- Title(参考訳): 都市安全知覚評価の革新化:ストリートビュー画像による多モーダル大言語モデルの統合
- Authors: Jiaxin Zhang, Yunqin Li, Tomohiro Fukuda, Bowen Wang,
- Abstract要約: 都市の安全知覚を測定することは、伝統的に人的資源に大きく依存する重要かつ複雑な作業である。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を示している。
都市全体の安全指標を迅速に評価するための,CLIP機能とK-Nearest Neighbors(K-NN)検索に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 5.799322786332704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Measuring urban safety perception is an important and complex task that traditionally relies heavily on human resources. This process often involves extensive field surveys, manual data collection, and subjective assessments, which can be time-consuming, costly, and sometimes inconsistent. Street View Images (SVIs), along with deep learning methods, provide a way to realize large-scale urban safety detection. However, achieving this goal often requires extensive human annotation to train safety ranking models, and the architectural differences between cities hinder the transferability of these models. Thus, a fully automated method for conducting safety evaluations is essential. Recent advances in multimodal large language models (MLLMs) have demonstrated powerful reasoning and analytical capabilities. Cutting-edge models, e.g., GPT-4 have shown surprising performance in many tasks. We employed these models for urban safety ranking on a human-annotated anchor set and validated that the results from MLLMs align closely with human perceptions. Additionally, we proposed a method based on the pre-trained Contrastive Language-Image Pre-training (CLIP) feature and K-Nearest Neighbors (K-NN) retrieval to quickly assess the safety index of the entire city. Experimental results show that our method outperforms existing training needed deep learning approaches, achieving efficient and accurate urban safety evaluations. The proposed automation for urban safety perception assessment is a valuable tool for city planners, policymakers, and researchers aiming to improve urban environments.
- Abstract(参考訳): 都市の安全知覚を測定することは、伝統的に人的資源に大きく依存する重要かつ複雑な作業である。
このプロセスには、広範囲にわたるフィールドサーベイ、手動データ収集、主観的評価が含まれており、時間を要する、コストがかかる、時には矛盾することもある。
ストリートビュー画像(SVI)は、ディープラーニング手法とともに、大規模な都市安全検出を実現する手段を提供する。
しかし、この目標を達成するには、安全ランキングモデルをトレーニングするための広範囲な人的アノテーションが必要であることが多く、都市間の建築的差異は、これらのモデルの転送可能性を妨げる。
したがって,安全性評価を行う完全自動化手法が不可欠である。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を示している。
カットエッジモデル、例えば、GPT-4は、多くのタスクにおいて驚くべきパフォーマンスを示している。
これらのモデルを用いて、人間の注釈付きアンカーセット上での安全性評価を行い、MLLMの結果が人間の知覚と密接に一致していることを検証する。
さらに, 都市全体の安全指標を迅速に評価するために, CLIP機能とK-Nearest Neighbors(K-NN)検索に基づく手法を提案する。
実験の結果,提案手法は既存の学習方法よりも優れており,効率的かつ正確な都市安全評価を実現することができることがわかった。
都市安全認識評価のための自動化は、都市計画者、政策立案者、都市環境改善を目的とした研究者にとって貴重なツールである。
関連論文リスト
- Machine Learning for Public Good: Predicting Urban Crime Patterns to Enhance Community Safety [0.0]
本稿では,都市部における犯罪の空間的・時間的パターンを予測するML手法の有効性について検討する。
研究目標は、呼び出しを優先度レベルに分類する際の高い精度を達成することである。
論文 参考訳(メタデータ) (2024-09-17T02:07:14Z) - Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing [8.468153670795443]
本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
論文 参考訳(メタデータ) (2024-02-09T21:37:13Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Evaluating the Perceived Safety of Urban City via Maximum Entropy Deep
Inverse Reinforcement Learning [10.605168966435981]
都市安全を予測し、対応する報酬関数を回復するための逆強化学習(IRL)ベースのフレームワーク。
我々は,予測問題をマルコフ決定過程(MDP)としてモデル化するスケーラブルな状態表現法を提案し,その問題を解決するために強化学習(RL)を用いた。
われわれは、クラウドソーシングデータ収集サイトと本論文で提案したモデルについて、後にオープンソース化する。
論文 参考訳(メタデータ) (2022-11-19T11:01:08Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。