論文の概要: Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs
- arxiv url: http://arxiv.org/abs/2601.08470v1
- Date: Tue, 13 Jan 2026 11:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.180229
- Title: Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs
- Title(参考訳): Safer Mobile Agentsに向けて:VLMの多様なシナリオのスケーラブルな生成と評価
- Authors: Takara Taniguchi, Kuniaki Saito, Atsushi Hashimoto,
- Abstract要約: ビジョン言語モデル(VLM)は、自動運転車やモバイルシステムにますます導入されている。
現在のベンチマークでは、さまざまな危険な状況、特に異常なシナリオが不適切にカバーされています。
時間力学
画像編集モデルを利用したスケーラブルなパイプラインである textbfHazardForge を紹介した。
レイアウト決定アルゴリズムと検証モジュールを備えたシナリオ。
- 参考スコア(独自算出の注目度): 10.48956192789531
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) are increasingly deployed in autonomous vehicles and mobile systems, making it crucial to evaluate their ability to support safer decision-making in complex environments. However, existing benchmarks inadequately cover diverse hazardous situations, especially anomalous scenarios with spatio-temporal dynamics. While image editing models are a promising means to synthesize such hazards, it remains challenging to generate well-formulated scenarios that include moving, intrusive, and distant objects frequently observed in the real world. To address this gap, we introduce \textbf{HazardForge}, a scalable pipeline that leverages image editing models to generate these scenarios with layout decision algorithms, and validation modules. Using HazardForge, we construct \textbf{MovSafeBench}, a multiple-choice question (MCQ) benchmark comprising 7,254 images and corresponding QA pairs across 13 object categories, covering both normal and anomalous objects. Experiments using MovSafeBench show that VLM performance degrades notably under conditions including anomalous objects, with the largest drop in scenarios requiring nuanced motion understanding.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、自動運転車やモバイルシステムにますます多くデプロイされており、複雑な環境でより安全な意思決定を支援する能力を評価することが重要である。
しかし、既存のベンチマークでは様々な危険状況、特に時空間力学の異常なシナリオを十分にカバーしていない。
画像編集モデルはこのようなハザードを合成するための有望な手段であるが、現実世界で頻繁に観測される移動、侵入、遠方からの物体を含む、十分に構造化されたシナリオを生成することは依然として困難である。
このギャップに対処するために、画像編集モデルを活用してこれらのシナリオをレイアウト決定アルゴリズムと検証モジュールで生成するスケーラブルなパイプラインである \textbf{HazardForge} を紹介します。
HazardForgeを用いて、通常のオブジェクトと異常オブジェクトの両方をカバーする、7,254のイメージと対応する13のオブジェクトカテゴリのQAペアからなるマルチチョイス質問(MCQ)ベンチマークである、textbf{MovSafeBench}を構築した。
MovSafeBenchを用いた実験では、異常なオブジェクトを含む条件下では、VLMのパフォーマンスが特に低下することが示された。
関連論文リスト
- Addressing Corner Cases in Autonomous Driving: A World Model-based Approach with Mixture of Experts and LLMs [30.363301425068162]
WM-MoEは世界初の世界モデルベースモーション予測フレームワークである。
認識、時間記憶、意思決定を統一し、リスクの高いコーナーケースシナリオの課題に対処する。
WM-MoEは、最先端(SOTA)ベースラインを一貫して上回り、コーナーケースやデータ損失条件下では堅牢である。
論文 参考訳(メタデータ) (2025-10-23T11:41:51Z) - AccidentBench: Benchmarking Multimodal Understanding and Reasoning in Vehicle Accidents and Beyond [101.20320617562321]
AccidentBenchは、自動車事故シナリオとBeyondドメインを組み合わせた大規模なベンチマークである。
このベンチマークには、約2000のビデオと19000以上の人間による質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-09-30T17:59:13Z) - Embodied Scene Understanding for Vision Language Models via MetaVQA [42.70816811661304]
視覚言語モデル(VLM)は、様々なモビリティアプリケーションにAIエージェントを組み込む可能性を示している。
本稿では,VLMの空間的関係とシーンダイナミクスに対する理解度を評価するための総合的なベンチマークであるMetaVQAを提案する。
実験の結果,MetaVQAデータセットを用いた微調整VLMは,安全クリティカルシミュレーションにおける空間的推論と環境理解を著しく改善することがわかった。
論文 参考訳(メタデータ) (2025-01-15T21:36:19Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Realistic Corner Case Generation for Autonomous Vehicles with Multimodal Large Language Model [10.741225574706]
AutoScenarioは、現実的なコーナーケース生成のためのフレームワークである。
複数の情報源からの安全クリティカルな現実世界データをテキスト表現に変換する。
シミュレーション・オブ・アーバンモビリティ(SUMO)とCARLAシミュレータのツールを統合している。
論文 参考訳(メタデータ) (2024-11-29T20:23:28Z) - ADUGS-VINS: Generalized Visual-Inertial Odometry for Robust Navigation in Highly Dynamic and Complex Environments [7.07379964916809]
ADUGS-VINSを導入し,拡張SORTアルゴリズムと高速化可能な基礎モデルをVIOに統合する。
提案手法は,様々な場面を表現した複数の公開データセットを用いて評価し,多様な動的オブジェクトを含む実世界のシナリオで評価する。
論文 参考訳(メタデータ) (2024-11-28T17:41:33Z) - CRASH: Crash Recognition and Anticipation System Harnessing with Context-Aware and Temporal Focus Attentions [13.981748780317329]
カメラ映像から周囲の交通機関の事故を正確にかつ迅速に予測することは、自動運転車(AV)の安全性に不可欠である
本研究は, CRASH と呼ばれる, AV の新たな事故予測フレームワークを提案する。
オブジェクト検出、特徴抽出、オブジェクト認識モジュール、コンテキスト認識モジュール、多層融合の5つのコンポーネントをシームレスに統合する。
私たちのモデルは、平均精度(AP)や平均到達時間(mTTA)といった重要な評価指標において、既存のトップベースラインを超えています。
論文 参考訳(メタデータ) (2024-07-25T04:12:49Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。