Fugu-MT 論文翻訳(概要): Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing

論文の概要: Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing

arxiv url: http://arxiv.org/abs/2402.06794v1
Date: Fri, 9 Feb 2024 21:37:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 19:20:36.920241
Title: Is it safe to cross? Interpretable Risk Assessment with GPT-4V for Safety-Aware Street Crossing
Title（参考訳）: 横切るのは安全ですか。 GPT-4Vによる道路交差点の安全性評価
Authors: Hochul Hwang, Sunjae Kwon, Yekyung Kim and Donghyun Kim
Abstract要約: 本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
参考スコア（独自算出の注目度）: 9.250849537332169
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Safely navigating street intersections is a complex challenge for blind and low-vision individuals, as it requires a nuanced understanding of the surrounding context - a task heavily reliant on visual cues. Traditional methods for assisting in this decision-making process often fall short, lacking the ability to provide a comprehensive scene analysis and safety level. This paper introduces an innovative approach that leverages large multimodal models (LMMs) to interpret complex street crossing scenes, offering a potential advancement over conventional traffic signal recognition techniques. By generating a safety score and scene description in natural language, our method supports safe decision-making for the blind and low-vision individuals. We collected crosswalk intersection data that contains multiview egocentric images captured by a quadruped robot and annotated the images with corresponding safety scores based on our predefined safety score categorization. Grounded on the visual knowledge, extracted from images, and text prompt, we evaluate a large multimodal model for safety score prediction and scene description. Our findings highlight the reasoning and safety score prediction capabilities of a LMM, activated by various prompts, as a pathway to developing a trustworthy system, crucial for applications requiring reliable decision-making support.
Abstract（参考訳）: 道路の交差点を安全にナビゲートすることは盲目と低視の個人にとって複雑な課題であり、周囲の状況に関する微妙な理解を必要とする。この意思決定プロセスを支援する伝統的な方法はしばしば不足し、包括的なシーン分析と安全性レベルを提供する能力が欠如している。本稿では,大規模マルチモーダルモデル(lmms)を用いて道路横断の複雑な場面を解釈し,従来の交通信号認識技術に対して潜在的に進歩する手法を提案する。安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。四足歩行ロボットが撮影した多視点エゴセントリック画像を含む横断歩道交差点データを収集し,予め定義された安全スコア分類に基づいて対応する安全スコアを付記した。画像から抽出した視覚的知識とテキストプロンプトに基づいて、安全スコア予測とシーン記述のための大規模なマルチモーダルモデルを評価する。本研究は,信頼性の高い意思決定支援を必要とするアプリケーションに不可欠な,信頼性の高いシステム開発への道筋として,様々なプロンプトによって起動されるLMMの推論と安全性スコア予測能力を強調した。

関連論文リスト

SafeDriveRAG: Towards Safe Autonomous Driving with Knowledge Graph-based Retrieval-Augmented Generation [27.135615596331263]
視覚言語モデル(VLM)は、自律運転システムの安全性を高めるために利用することができる。既存の研究は、交通安全クリティカルな運転シナリオにおけるこれらのモデルの評価を概ね見落としている。本稿では,視覚的質問応答のための知識グラフに基づく検索拡張生成を用いたVLMに基づく新しいベースラインを提案する。
論文参考訳（メタデータ） (2025-07-29T08:40:17Z)
Multimodal Large Language Models for Enhanced Traffic Safety: A Comprehensive Review and Future Trends [5.233512464561313]
従来のアドバンストドライバー支援システムは、しばしば動的な現実のシナリオで苦労する。本稿では,これらの制約に対処する上で,MLLM(Multimodal Large Language Models)の変換可能性について概説する。 MLLMを次世代の交通安全システムの基礎として位置づけることで、この分野に革命をもたらす可能性を示している。
論文参考訳（メタデータ） (2025-04-21T18:48:35Z)
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文参考訳（メタデータ） (2025-02-28T21:53:47Z)
Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。 MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。 MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文参考訳（メタデータ） (2025-02-16T16:12:40Z)
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-30T17:59:45Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
FFAA: Multimodal Large Language Model based Explainable Open-World Face Forgery Analysis Assistant [59.2438504610849]
FFAA: Face Forgery Analysis Assistant(MLLM)とMIDS(Multi-Awer Intelligent Decision System)について紹介する。提案手法は,ユーザフレンドリで説明可能な結果を提供するだけでなく,従来の手法に比べて精度と堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-08-19T15:15:20Z)
Revolutionizing Urban Safety Perception Assessments: Integrating Multimodal Large Language Models with Street View Images [5.799322786332704]
都市の安全知覚を測定することは、伝統的に人的資源に大きく依存する重要かつ複雑な作業である。マルチモーダル大規模言語モデル(MLLM)の最近の進歩は、強力な推論と分析能力を示している。都市全体の安全指標を迅速に評価するための,CLIP機能とK-Nearest Neighbors(K-NN)検索に基づく手法を提案する。
論文参考訳（メタデータ） (2024-07-29T06:03:13Z)
Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文参考訳（メタデータ） (2024-06-21T16:14:15Z)
Safeguarded Progress in Reinforcement Learning: Safe Bayesian Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2023-12-18T16:09:43Z)
A Counterfactual Safety Margin Perspective on the Scoring of Autonomous Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文参考訳（メタデータ） (2023-08-02T09:48:08Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Analyzing vehicle pedestrian interactions combining data cube structure and predictive collision risk estimation model [5.73658856166614]
本研究では,フィールドと集中型プロセスを組み合わせた歩行者安全システムについて紹介する。本システムは,現場における今後のリスクを直ちに警告し,実際の衝突のない道路の安全レベルを評価することにより,危険頻繁なエリアの安全性を向上させることができる。
論文参考訳（メタデータ） (2021-07-26T23:00:56Z)
Vision based Pedestrian Potential Risk Analysis based on Automated Behavior Feature Extraction for Smart and Safe City [5.759189800028578]
このような交差点に設置した道路セキュリティカメラで収集した映像を用いて,歩行者の潜在的な危険度に関する包括的分析モデルを提案する。提案システムは、車や歩行者を自動的に検知し、フレームによって軌跡を計算し、これらの物体間の潜在的危険シーンの可能性を左右する行動特徴を抽出する。韓国大山市の横断歩道で適用し,実現可能性と適用性を評価した。
論文参考訳（メタデータ） (2021-05-06T11:03:10Z)
Model Guided Road Intersection Classification [2.9248680865344348]
本研究は,rgb画像からの区間間分類を,教師・生徒の訓練パラダイムに基づく結果向上手法とともに,統合型ニューラルネットワークを用いて検討する。 KITTIデータセットと新しいKITTI-360シーケンスの両方において、最適な入力構成を特定し、異なるネットワークパラメータを評価することを目的とした広範な実験活動により、本手法はフレーム単位の最先端手法よりも優れ、提案手法の有効性が証明された。
論文参考訳（メタデータ） (2021-04-26T09:15:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。