論文の概要: Is it safe to cross? Interpretable Risk Assessment with GPT-4V for
Safety-Aware Street Crossing
- arxiv url: http://arxiv.org/abs/2402.06794v1
- Date: Fri, 9 Feb 2024 21:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:20:36.920241
- Title: Is it safe to cross? Interpretable Risk Assessment with GPT-4V for
Safety-Aware Street Crossing
- Title(参考訳): 横切るのは安全ですか。
GPT-4Vによる道路交差点の安全性評価
- Authors: Hochul Hwang, Sunjae Kwon, Yekyung Kim and Donghyun Kim
- Abstract要約: 本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
- 参考スコア(独自算出の注目度): 9.250849537332169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safely navigating street intersections is a complex challenge for blind and
low-vision individuals, as it requires a nuanced understanding of the
surrounding context - a task heavily reliant on visual cues. Traditional
methods for assisting in this decision-making process often fall short, lacking
the ability to provide a comprehensive scene analysis and safety level. This
paper introduces an innovative approach that leverages large multimodal models
(LMMs) to interpret complex street crossing scenes, offering a potential
advancement over conventional traffic signal recognition techniques. By
generating a safety score and scene description in natural language, our method
supports safe decision-making for the blind and low-vision individuals. We
collected crosswalk intersection data that contains multiview egocentric images
captured by a quadruped robot and annotated the images with corresponding
safety scores based on our predefined safety score categorization. Grounded on
the visual knowledge, extracted from images, and text prompt, we evaluate a
large multimodal model for safety score prediction and scene description. Our
findings highlight the reasoning and safety score prediction capabilities of a
LMM, activated by various prompts, as a pathway to developing a trustworthy
system, crucial for applications requiring reliable decision-making support.
- Abstract(参考訳): 道路の交差点を安全にナビゲートすることは盲目と低視の個人にとって複雑な課題であり、周囲の状況に関する微妙な理解を必要とする。
この意思決定プロセスを支援する伝統的な方法はしばしば不足し、包括的なシーン分析と安全性レベルを提供する能力が欠如している。
本稿では,大規模マルチモーダルモデル(lmms)を用いて道路横断の複雑な場面を解釈し,従来の交通信号認識技術に対して潜在的に進歩する手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
四足歩行ロボットが撮影した多視点エゴセントリック画像を含む横断歩道交差点データを収集し,予め定義された安全スコア分類に基づいて対応する安全スコアを付記した。
画像から抽出した視覚的知識とテキストプロンプトに基づいて、安全スコア予測とシーン記述のための大規模なマルチモーダルモデルを評価する。
本研究は,信頼性の高い意思決定支援を必要とするアプリケーションに不可欠な,信頼性の高いシステム開発への道筋として,様々なプロンプトによって起動されるLMMの推論と安全性スコア予測能力を強調した。
関連論文リスト
- Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。
提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-19T15:15:20Z) - Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images [5.799322786332704]
都市の安全知覚を測定することは、伝統的に人的資源に大きく依存する重要かつ複雑な作業である。
マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を示している。
都市全体の安全指標を迅速に評価するための,CLIP機能とK-Nearest Neighbors(K-NN)検索に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T06:03:13Z) - Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Analyzing vehicle pedestrian interactions combining data cube structure
and predictive collision risk estimation model [5.73658856166614]
本研究では,フィールドと集中型プロセスを組み合わせた歩行者安全システムについて紹介する。
本システムは,現場における今後のリスクを直ちに警告し,実際の衝突のない道路の安全レベルを評価することにより,危険頻繁なエリアの安全性を向上させることができる。
論文 参考訳(メタデータ) (2021-07-26T23:00:56Z) - Vision based Pedestrian Potential Risk Analysis based on Automated
Behavior Feature Extraction for Smart and Safe City [5.759189800028578]
このような交差点に設置した道路セキュリティカメラで収集した映像を用いて,歩行者の潜在的な危険度に関する包括的分析モデルを提案する。
提案システムは、車や歩行者を自動的に検知し、フレームによって軌跡を計算し、これらの物体間の潜在的危険シーンの可能性を左右する行動特徴を抽出する。
韓国大山市の横断歩道で適用し,実現可能性と適用性を評価した。
論文 参考訳(メタデータ) (2021-05-06T11:03:10Z) - Model Guided Road Intersection Classification [2.9248680865344348]
本研究は,rgb画像からの区間間分類を,教師・生徒の訓練パラダイムに基づく結果向上手法とともに,統合型ニューラルネットワークを用いて検討する。
KITTIデータセットと新しいKITTI-360シーケンスの両方において、最適な入力構成を特定し、異なるネットワークパラメータを評価することを目的とした広範な実験活動により、本手法はフレーム単位の最先端手法よりも優れ、提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-04-26T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。