論文の概要: GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance
- arxiv url: http://arxiv.org/abs/2503.12844v1
- Date: Mon, 17 Mar 2025 05:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:58.128686
- Title: GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance
- Title(参考訳): GuideDog: Blind and Low-Vision Accessibility-Aware Guidanceのための実世界のEgocentric Multimodal Dataset
- Authors: Junhyeok Kim, Jaewoo Park, Junhee Park, Sangeyl Lee, Jiwan Chung, Jisung Kim, Ji Hoon Joung, Youngjae Yu,
- Abstract要約: 視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
- 参考スコア(独自算出の注目度): 18.467461615621872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mobility remains a significant challenge for the 2.2 billion people worldwide affected by blindness and low vision (BLV), with 7% of visually impaired individuals experiencing falls at least once a month. While recent advances in Multimodal Large Language Models (MLLMs) offer promising opportunities for BLV assistance, their development has been hindered by limited datasets. This limitation stems from the fact that BLV-aware annotation requires specialized domain knowledge and intensive labor. To address this gap, we introduce GuideDog, a novel accessibility-aware guide dataset containing 22K image-description pairs (including 2K human-annotated pairs) that capture diverse real-world scenes from a pedestrian's viewpoint. Our approach shifts the annotation burden from generation to verification through a collaborative human-AI framework grounded in established accessibility standards, significantly improving efficiency while maintaining high-quality annotations. We also develop GuideDogQA, a subset of 818 samples featuring multiple-choice questions designed to evaluate fine-grained visual perception capabilities, specifically object recognition and relative depth perception. Our experimental results highlight the importance of accurate spatial understanding for effective BLV guidance. GuideDog and GuideDogQA will advance research in MLLM-based assistive technologies for BLV individuals while contributing to broader applications in understanding egocentric scenes for robotics and augmented reality. The code and dataset will be publicly available.
- Abstract(参考訳): 視覚障害者の7%は月に少なくとも1回は転倒している。
MLLM(Multimodal Large Language Models)の最近の進歩はBLV支援に有望な機会を提供するが、その開発は限られたデータセットによって妨げられている。
この制限は、BLV対応アノテーションが専門のドメイン知識と集中的な労働を必要とするという事実に起因している。
このギャップに対処するために、歩行者の視点から様々な現実世界のシーンをキャプチャする22K画像記述ペア(2Kヒューマンアノテートペアを含む)を含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介した。
提案手法は,従来のアクセシビリティ標準に基づく協調型ヒューマンAIフレームワークを通じて,アノテーションの負担を生成から検証へとシフトさせ,高品質なアノテーションを維持しながら効率を大幅に向上させる。
また,詳細な視覚知覚能力,特に物体認識と相対深度知覚を評価するために考案された818個のサンプルのサブセットである GuideDogQA も開発した。
実験結果から,有効なBLV誘導のための正確な空間理解の重要性が強調された。
GuideDogと GuideDogQAは、MLLMベースのBLV個人支援技術の研究を進め、ロボット工学と拡張現実のエゴセントリックなシーンを理解するための幅広い応用に貢献する。
コードとデータセットが公開される。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users [42.132487737233845]
本稿では、視覚障害者のための補助技術として、MLLM(Multimodal Large Language Model)の有効性について検討する。
このようなテクノロジでユーザが直面する採用パターンと,重要な課題を特定するために,ユーザ調査を実施しています。
論文 参考訳(メタデータ) (2025-03-28T16:54:25Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid? [16.31494394717809]
Blind and Low-Vision (BLV) の人々は周囲、特に馴染みの無い環境での理解を支援する必要がある。
LVLM(Large Vision-Language Models)の多様なタイプやスタイルの応答に対するBLVユーザの嗜好についてはまだ研究されていない。
最初にEye4Bデータセットを構築し,人間による評価1.1kの屋外/屋内シーンと,シーン毎に5~10の関連要求を処理した。
次に,8人のBLVユーザによる詳細なユーザスタディを行い,6つのLVLM(Afraidness, Nonactionability, Sufficiency, Conciseness)の視点で好みを評価する。
論文 参考訳(メタデータ) (2025-02-15T10:17:52Z) - WalkVLM:Aid Visually Impaired People Walking by Vision Language Model [29.340362062804967]
12,000対のビデオアノテーションペアからなる歩行支援専用の最初の大規模データセットを紹介した。
簡潔だが情報に富むリマインダーを生成する階層的計画に一連の思考を用いるWalkVLMモデルを提案する。
我々はブラインドウォーキングタスクの確固たるベンチマークを確立し、ストリームビデオ処理におけるWalkVLMの利点を検証した。
論文 参考訳(メタデータ) (2024-12-30T12:29:02Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models [86.85389322710674]
この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。
LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。
視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-08-07T17:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。