論文の概要: mmWalk: Towards Multi-modal Multi-view Walking Assistance
- arxiv url: http://arxiv.org/abs/2510.11520v1
- Date: Mon, 13 Oct 2025 15:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.430218
- Title: mmWalk: Towards Multi-modal Multi-view Walking Assistance
- Title(参考訳): mmWalk:マルチモーダル多視点歩行支援を目指して
- Authors: Kedi Ying, Ruiping Liu, Chongyan Chen, Mingzhe Tao, Hao Shi, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen,
- Abstract要約: mmWalkは、マルチビューセンサーとアクセシビリティ指向の機能を統合して、屋外安全なナビゲーションを可能にするシミュレーションされたマルチモーダルデータセットである。
本データセットは,120個のシナリオ分類された歩行軌跡と62kの同期フレームから構成される。
VQAベンチマークであるmmWalkVQAを生成し、9つのカテゴリに69万以上の視覚的質問応答三つ子を配置し、安全かつ情報的な歩行支援を行う。
- 参考スコア(独自算出の注目度): 44.184803877778556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Walking assistance in extreme or complex environments remains a significant challenge for people with blindness or low vision (BLV), largely due to the lack of a holistic scene understanding. Motivated by the real-world needs of the BLV community, we build mmWalk, a simulated multi-modal dataset that integrates multi-view sensor and accessibility-oriented features for outdoor safe navigation. Our dataset comprises 120 manually controlled, scenario-categorized walking trajectories with 62k synchronized frames. It contains over 559k panoramic images across RGB, depth, and semantic modalities. Furthermore, to emphasize real-world relevance, each trajectory involves outdoor corner cases and accessibility-specific landmarks for BLV users. Additionally, we generate mmWalkVQA, a VQA benchmark with over 69k visual question-answer triplets across 9 categories tailored for safe and informed walking assistance. We evaluate state-of-the-art Vision-Language Models (VLMs) using zero- and few-shot settings and found they struggle with our risk assessment and navigational tasks. We validate our mmWalk-finetuned model on real-world datasets and show the effectiveness of our dataset for advancing multi-modal walking assistance.
- Abstract(参考訳): 極端な環境や複雑な環境での歩行支援は、視覚障害者(BLV)にとって重要な課題であり、その主な原因は全体像の理解の欠如にある。
BLVコミュニティの現実的なニーズに触発され、マルチビューセンサーとアクセシビリティ指向の機能を統合したマルチモーダルデータセットであるmmWalkを構築した。
本データセットは,120個のシナリオ分類された歩行軌跡と62kの同期フレームから構成される。
RGB、深さ、セマンティックモダリティにまたがる559k以上のパノラマ画像を含んでいる。
さらに、現実世界の関連性を強調するために、各軌道には屋外のコーナーケースと、BLVユーザのためのアクセシビリティ固有のランドマークが含まれる。
さらに、安全な歩行支援に適した9つのカテゴリに69k以上の視覚的質問応答三つ子を持つVQAベンチマークであるmmWalkVQAを生成する。
ゼロショットおよび少数ショット設定を用いて、最先端のビジョンランゲージモデル(VLM)を評価し、リスク評価とナビゲーションタスクに苦慮していることが分かった。
実世界のデータセット上でのmmWalk-finetunedモデルの有効性を検証し,マルチモーダル歩行支援のためのデータセットの有効性を示す。
関連論文リスト
- City-VLM: Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning [18.827215649935468]
我々は、textbfunderlineSVM-City という、最初のマルチドメイン認識屋外シーン理解データセットを構築した。
420ドル(約4万2000円)の画像と811ドル(約4万2000円)のポイントクラウドと567ドル(約5万5000円)の質問応答ペア、低高度ドローン、高高度航空機、衛星が含まれています。
実験結果から,City-VLM は既存の LVLM を平均して18.14 % のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-07-17T05:21:21Z) - Learning to Drive Anywhere with Model-Based Reannotation [49.80796496905606]
ロボットの視覚ナビゲーションポリシーを一般化するためのフレームワークを開発する。
クラウドソースの遠隔操作データや、ラベルなしのYouTubeビデオなど、受動的に収集されたデータを活用します。
このデータはLogoNavに蒸留される。LogoNavは、視覚的目標やGPSのウェイポイントに照準を合わせられた長い水平航法ポリシーだ。
論文 参考訳(メタデータ) (2025-05-08T18:43:39Z) - TraveLLaMA: Facilitating Multi-modal Large Language Models to Understand Urban Scenes and Provide Travel Assistance [48.12326709517022]
本稿では,都市景観理解と旅行支援を目的とした多モーダル言語モデルTraveLLaMAを提案する。
我々の研究は、220万の質問応答ペアからなる新しい大規模データセットを通じて、実用的なAI旅行アシスタントを開発するという根本的な課題に対処する。
論文 参考訳(メタデータ) (2025-04-23T08:32:25Z) - Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding [10.242043337117005]
視覚大言語モデル(VLLM)は、画像キャプションや視覚的質問応答といった一般的な視覚的タスクにおいて、印象的な機能を示している。
しかし、自律運転のような専門的で安全に重要な分野におけるその効果は、まだ明らかにされていない。
DVBenchは、安全クリティカルな運転映像の理解において、VLLMの性能を評価するために設計された先駆的なベンチマークである。
論文 参考訳(メタデータ) (2025-04-20T07:50:44Z) - GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance [18.467461615621872]
視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
論文 参考訳(メタデータ) (2025-03-17T05:43:40Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes [76.24687327731031]
まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。
私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。
我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。