論文の概要: EgoBlind: Towards Egocentric Visual Assistance for the Blind People
- arxiv url: http://arxiv.org/abs/2503.08221v1
- Date: Tue, 11 Mar 2025 09:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 22:35:51.673243
- Title: EgoBlind: Towards Egocentric Visual Assistance for the Blind People
- Title(参考訳): EgoBlind: 盲人のためのエゴセントリックな視覚支援を目指して
- Authors: Junbin Xiao, Nanxin Huang, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao,
- Abstract要約: EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットである。
実際の盲目のユーザーの日常生活を1対1の視点で記録する1,210の動画で構成されている。
視覚支援の必要性を反映するために、視覚障害者が直接提示または生成した4,927の質問も入っている。
- 参考スコア(独自算出の注目度): 69.6161191190939
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present EgoBlind, the first egocentric VideoQA dataset collected from blind individuals to evaluate the assistive capabilities of contemporary multimodal large language models (MLLMs). EgoBlind comprises 1,210 videos that record the daily lives of real blind users from a first-person perspective. It also features 4,927 questions directly posed or generated and verified by blind individuals to reflect their needs for visual assistance under various scenarios. We provide each question with an average of 3 reference answers to alleviate subjective evaluation. Using EgoBlind, we comprehensively evaluate 15 leading MLLMs and find that all models struggle, with the best performers achieving accuracy around 56\%, far behind human performance of 87.4\%. To guide future advancements, we identify and summarize major limitations of existing MLLMs in egocentric visual assistance for the blind and provide heuristic suggestions for improvement. With these efforts, we hope EgoBlind can serve as a valuable foundation for developing more effective AI assistants to enhance the independence of the blind individuals' lives.
- Abstract(参考訳): EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットであり、現代のマルチモーダル大言語モデル(MLLM)の補助能力を評価する。
EgoBlindは、1対1の視点で、本物の盲目のユーザーの日常生活を記録する1,210のビデオで構成されている。
また、視覚障害者が様々なシナリオで視覚支援の必要性を反映するために、直接、または生成し、検証した4,927の質問も入っている。
主観的評価を緩和するために,各質問に平均3つの基準回答を与える。
EgoBlindを用いて15のMLLMを総合的に評価し、最高のパフォーマーが精度を約56\%で達成し、人間のパフォーマンスを87.4\%よりもはるかに上回っていることを確認する。
今後の進歩を導くため,視覚障害者の自我中心型視覚支援における既存のMLLMの大きな限界を特定し,整理し,改善のためのヒューリスティックな提案を行う。
これらの努力により、EgoBlindは、視覚障害者の生活の自立性を高めるために、より効果的なAIアシスタントを開発するための貴重な基盤となることを願っている。
関連論文リスト
- GuideDog: A Real-World Egocentric Multimodal Dataset for Blind and Low-Vision Accessibility-Aware Guidance [18.467461615621872]
視力低下と低視力(BLV)による世界22億人にとって、モビリティは依然として重要な課題である。
本稿では,22K画像記述ペアを含む新しいアクセシビリティ対応ガイドデータセットである GuideDogを紹介する。
また818個のサンプルのサブセットである GuideDogQA も開発した。
論文 参考訳(メタデータ) (2025-03-17T05:43:40Z) - Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。
本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。
Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文 参考訳(メタデータ) (2025-03-12T08:10:33Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。