論文の概要: GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance
- arxiv url: http://arxiv.org/abs/2503.12844v1
- Date: Mon, 17 Mar 2025 05:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:40.230446
- Title: GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance
- Title(参考訳): GuideDog: Blind and Low-Vision Accessibility-Aware Guidanceのための実世界のEgocentric Multimodal Dataset
- Authors: Junhyeok Kim, Jaewoo Park, Junhee Park, Sangeyl Lee, Jiwan Chung, Jisung Kim, Ji Hoon Joung, Youngjae Yu,
- Abstract要約: 視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
- 参考スコア(独自算出の注目度): 18.467461615621872
- License:
- Abstract: Mobility remains a significant challenge for the 2.2 billion people worldwide affected by blindness and low vision (BLV), with 7% of visually impaired individuals experiencing falls at least once a month. While recent advances in Multimodal Large Language Models (MLLMs) offer promising opportunities for BLV assistance, their development has been hindered by limited datasets. This limitation stems from the fact that BLV-aware annotation requires specialized domain knowledge and intensive labor. To address this gap, we introduce GuideDog, a novel accessibility-aware guide dataset containing 22K image-description pairs (including 2K human-annotated pairs) that capture diverse real-world scenes from a pedestrian's viewpoint. Our approach shifts the annotation burden from generation to verification through a collaborative human-AI framework grounded in established accessibility standards, significantly improving efficiency while maintaining high-quality annotations. We also develop GuideDogQA, a subset of 818 samples featuring multiple-choice questions designed to evaluate fine-grained visual perception capabilities, specifically object recognition and relative depth perception. Our experimental results highlight the importance of accurate spatial understanding for effective BLV guidance. GuideDog and GuideDogQA will advance research in MLLM-based assistive technologies for BLV individuals while contributing to broader applications in understanding egocentric scenes for robotics and augmented reality. The code and dataset will be publicly available.
- Abstract(参考訳): 視覚障害者の7%は月に少なくとも1回は転倒している。
MLLM(Multimodal Large Language Models)の最近の進歩はBLV支援に有望な機会を提供するが、その開発は限られたデータセットによって妨げられている。
この制限は、BLV対応アノテーションが専門のドメイン知識と集中的な労働を必要とするという事実に起因している。
このギャップに対処するために、歩行者の視点から様々な現実世界のシーンをキャプチャする22K画像記述ペア(2Kヒューマンアノテートペアを含む)を含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介した。
提案手法は,従来のアクセシビリティ標準に基づく協調型ヒューマンAIフレームワークを通じて,アノテーションの負担を生成から検証へとシフトさせ,高品質なアノテーションを維持しながら効率を大幅に向上させる。
また,詳細な視覚知覚能力,特に物体認識と相対深度知覚を評価するために考案された818個のサンプルのサブセットである GuideDogQA も開発した。
実験結果から,有効なBLV誘導のための正確な空間理解の重要性が強調された。
GuideDogと GuideDogQAは、MLLMベースのBLV個人支援技術の研究を進め、ロボット工学と拡張現実のエゴセントリックなシーンを理解するための幅広い応用に貢献する。
コードとデータセットが公開される。
関連論文リスト
- WalkVLM:Aid Visually Impaired People Walking by Vision Language Model [29.340362062804967]
12,000対のビデオアノテーションペアからなる歩行支援専用の最初の大規模データセットを紹介した。
簡潔だが情報に富むリマインダーを生成する階層的計画に一連の思考を用いるWalkVLMモデルを提案する。
我々はブラインドウォーキングタスクの確固たるベンチマークを確立し、ストリームビデオ処理におけるWalkVLMの利点を検証した。
論文 参考訳(メタデータ) (2024-12-30T12:29:02Z) - HumanVBench: Exploring Human-Centric Video Understanding Capabilities of MLLMs with Synthetic Benchmark Data [55.739633494946204]
我々は,ビデオMLLMの評価において,ギャップを埋めるために巧みに構築された,革新的なベンチマークであるHumanVBenchを紹介する。
HumanVBenchは、内的感情と外的表現、静的、動的、基本的、複雑にまたがる2つの主要な側面と、単一モーダルとクロスモーダルという2つの側面を慎重に検討する16のタスクで構成されている。
22のSOTAビデオMLLMの総合評価では、特にクロスモーダルおよび感情知覚において、現在のパフォーマンスに顕著な制限が示される。
論文 参考訳(メタデータ) (2024-12-23T13:45:56Z) - LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation [21.91073335335992]
リモートセンシング(RS)画像の理解に特化したMLLMであるLHRS-Bot-Novaを紹介する。
LHRS-Bot-Novaは拡張ビジョンエンコーダと新しいブリッジ層を備えており、効率的なビジュアル圧縮と言語ビジョンアライメントを実現している。
RS画像理解タスクにおけるLHRS-Bot-Novaの優れた性能を示す大規模な実験を行った。
論文 参考訳(メタデータ) (2024-11-14T09:23:40Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - TinyLVLM-eHub: Towards Comprehensive and Efficient Evaluation for Large Vision-Language Models [86.85389322710674]
この研究は、LVLM(Large Vision-Language Models)の早期かつ総合的な評価を提示する。
LVLM-eHubの軽量版であるTiny LVLM-eHubを提案する。
視覚的知覚、視覚的知識獲得、視覚的推論、視覚的常識、物体幻覚、具体的知能の6つのカテゴリの体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-08-07T17:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。