論文の概要: Is it safe to cross? Interpretable Risk Assessment with GPT-4V for
Safety-Aware Street Crossing
- arxiv url: http://arxiv.org/abs/2402.06794v1
- Date: Fri, 9 Feb 2024 21:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 19:20:36.920241
- Title: Is it safe to cross? Interpretable Risk Assessment with GPT-4V for
Safety-Aware Street Crossing
- Title(参考訳): 横切るのは安全ですか。
GPT-4Vによる道路交差点の安全性評価
- Authors: Hochul Hwang, Sunjae Kwon, Yekyung Kim and Donghyun Kim
- Abstract要約: 本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
- 参考スコア(独自算出の注目度): 9.250849537332169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safely navigating street intersections is a complex challenge for blind and
low-vision individuals, as it requires a nuanced understanding of the
surrounding context - a task heavily reliant on visual cues. Traditional
methods for assisting in this decision-making process often fall short, lacking
the ability to provide a comprehensive scene analysis and safety level. This
paper introduces an innovative approach that leverages large multimodal models
(LMMs) to interpret complex street crossing scenes, offering a potential
advancement over conventional traffic signal recognition techniques. By
generating a safety score and scene description in natural language, our method
supports safe decision-making for the blind and low-vision individuals. We
collected crosswalk intersection data that contains multiview egocentric images
captured by a quadruped robot and annotated the images with corresponding
safety scores based on our predefined safety score categorization. Grounded on
the visual knowledge, extracted from images, and text prompt, we evaluate a
large multimodal model for safety score prediction and scene description. Our
findings highlight the reasoning and safety score prediction capabilities of a
LMM, activated by various prompts, as a pathway to developing a trustworthy
system, crucial for applications requiring reliable decision-making support.
- Abstract(参考訳): 道路の交差点を安全にナビゲートすることは盲目と低視の個人にとって複雑な課題であり、周囲の状況に関する微妙な理解を必要とする。
この意思決定プロセスを支援する伝統的な方法はしばしば不足し、包括的なシーン分析と安全性レベルを提供する能力が欠如している。
本稿では,大規模マルチモーダルモデル(lmms)を用いて道路横断の複雑な場面を解釈し,従来の交通信号認識技術に対して潜在的に進歩する手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
四足歩行ロボットが撮影した多視点エゴセントリック画像を含む横断歩道交差点データを収集し,予め定義された安全スコア分類に基づいて対応する安全スコアを付記した。
画像から抽出した視覚的知識とテキストプロンプトに基づいて、安全スコア予測とシーン記述のための大規模なマルチモーダルモデルを評価する。
本研究は,信頼性の高い意思決定支援を必要とするアプリケーションに不可欠な,信頼性の高いシステム開発への道筋として,様々なプロンプトによって起動されるLMMの推論と安全性スコア予測能力を強調した。
関連論文リスト
- Cross-Modality Perturbation Synergy Attack for Person Re-identification [70.44850060727474]
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
既存の攻撃方法は、目に見える画像のモダリティの特徴に主に焦点を当てている。
本研究では,クロスモーダルReIDに特化して設計されたユニバーサル摂動攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-18T15:56:23Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by
Finding Problematic Prompts [68.24640128324778]
テキストと画像の拡散モデルは、高品質なコンテンツ生成において顕著な能力を示している。
本研究では,拡散モデルの問題を自動検出するツールとして,Prompting4 Debugging (P4D)を提案する。
この結果から,従来のセーフプロンプトベンチマークの約半数は,本来 "セーフ" と考えられていたので,実際に多くのデプロイされた安全機構を回避できることがわかった。
論文 参考訳(メタデータ) (2023-09-12T11:19:36Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Interpreting Safety Outcomes: Waymo's Performance Evaluation in the
Context of a Broader Determination of Safety Readiness [0.0]
本稿では,観測結果と他の推定手法を補完する安全性判定への多角的アプローチの必要性を強調した。
ADSのクラッシュデータと人間由来のベースラインの比較における「クレディビリティ・パラドックス」の提示、インユースモニタリングによる継続的信頼成長の認識、イベントレベルの適切な推論による総合統計分析を補完する必要性、などが議論の焦点となっている。
論文 参考訳(メタデータ) (2023-06-23T14:26:40Z) - Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion
Transformer [28.15612357340141]
我々は、InterFuser(Interpretable Sensor Fusion Transformer)という安全強化型自律走行フレームワークを提案する。
我々は、総合的なシーン理解と対向事象検出を実現するために、マルチモーダル・マルチビューセンサーからの情報を処理し、融合する。
私たちのフレームワークは、よりセマンティクスを提供し、安全なセット内のアクションをよりよく制約するために利用されます。
論文 参考訳(メタデータ) (2022-07-28T11:36:21Z) - Analyzing vehicle pedestrian interactions combining data cube structure
and predictive collision risk estimation model [5.73658856166614]
本研究では,フィールドと集中型プロセスを組み合わせた歩行者安全システムについて紹介する。
本システムは,現場における今後のリスクを直ちに警告し,実際の衝突のない道路の安全レベルを評価することにより,危険頻繁なエリアの安全性を向上させることができる。
論文 参考訳(メタデータ) (2021-07-26T23:00:56Z) - Vision based Pedestrian Potential Risk Analysis based on Automated
Behavior Feature Extraction for Smart and Safe City [5.759189800028578]
このような交差点に設置した道路セキュリティカメラで収集した映像を用いて,歩行者の潜在的な危険度に関する包括的分析モデルを提案する。
提案システムは、車や歩行者を自動的に検知し、フレームによって軌跡を計算し、これらの物体間の潜在的危険シーンの可能性を左右する行動特徴を抽出する。
韓国大山市の横断歩道で適用し,実現可能性と適用性を評価した。
論文 参考訳(メタデータ) (2021-05-06T11:03:10Z) - Model Guided Road Intersection Classification [2.9248680865344348]
本研究は,rgb画像からの区間間分類を,教師・生徒の訓練パラダイムに基づく結果向上手法とともに,統合型ニューラルネットワークを用いて検討する。
KITTIデータセットと新しいKITTI-360シーケンスの両方において、最適な入力構成を特定し、異なるネットワークパラメータを評価することを目的とした広範な実験活動により、本手法はフレーム単位の最先端手法よりも優れ、提案手法の有効性が証明された。
論文 参考訳(メタデータ) (2021-04-26T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。