論文の概要: EgoBlind: Towards Egocentric Visual Assistance for the Blind People
- arxiv url: http://arxiv.org/abs/2503.08221v1
- Date: Tue, 11 Mar 2025 09:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:54.214388
- Title: EgoBlind: Towards Egocentric Visual Assistance for the Blind People
- Title(参考訳): EgoBlind: 盲人のためのエゴセントリックな視覚支援を目指して
- Authors: Junbin Xiao, Nanxin Huang, Hao Qiu, Zhulin Tao, Xun Yang, Richang Hong, Meng Wang, Angela Yao,
- Abstract要約: EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットである。
実際の盲目のユーザーの日常生活を1対1の視点で記録する1,210の動画で構成されている。
視覚支援の必要性を反映するために、視覚障害者が直接提示または生成した4,927の質問も入っている。
- 参考スコア(独自算出の注目度): 69.6161191190939
- License:
- Abstract: We present EgoBlind, the first egocentric VideoQA dataset collected from blind individuals to evaluate the assistive capabilities of contemporary multimodal large language models (MLLMs). EgoBlind comprises 1,210 videos that record the daily lives of real blind users from a first-person perspective. It also features 4,927 questions directly posed or generated and verified by blind individuals to reflect their needs for visual assistance under various scenarios. We provide each question with an average of 3 reference answers to alleviate subjective evaluation. Using EgoBlind, we comprehensively evaluate 15 leading MLLMs and find that all models struggle, with the best performers achieving accuracy around 56\%, far behind human performance of 87.4\%. To guide future advancements, we identify and summarize major limitations of existing MLLMs in egocentric visual assistance for the blind and provide heuristic suggestions for improvement. With these efforts, we hope EgoBlind can serve as a valuable foundation for developing more effective AI assistants to enhance the independence of the blind individuals' lives.
- Abstract(参考訳): EgoBlindは、視覚障害者から収集された最初のエゴセントリックなビデオQAデータセットであり、現代のマルチモーダル大言語モデル(MLLM)の補助能力を評価する。
EgoBlindは、1対1の視点で、本物の盲目のユーザーの日常生活を記録する1,210のビデオで構成されている。
また、視覚障害者が様々なシナリオで視覚支援の必要性を反映するために、直接、または生成し、検証した4,927の質問も入っている。
主観的評価を緩和するために,各質問に平均3つの基準回答を与える。
EgoBlindを用いて15のMLLMを総合的に評価し、最高のパフォーマーが精度を約56\%で達成し、人間のパフォーマンスを87.4\%よりもはるかに上回っていることを確認する。
今後の進歩を導くため,視覚障害者の自我中心型視覚支援における既存のMLLMの大きな限界を特定し,整理し,改善のためのヒューリスティックな提案を行う。
これらの努力により、EgoBlindは、視覚障害者の生活の自立性を高めるために、より効果的なAIアシスタントを開発するための貴重な基盤となることを願っている。
関連論文リスト
- VLFeedback: A Large-Scale AI Feedback Dataset for Large Vision-Language Models Alignment [55.7956150385255]
本稿では,視覚言語モデルの整合性向上のためのAIフィードバックの有効性について検討する。
最初の大規模視覚言語フィードバックデータセットであるVLFeedbackを紹介する。
我々は、VLFeedback上で直接選好最適化によって微調整されたLVLMであるSilkieを訓練する。
論文 参考訳(メタデータ) (2024-10-12T07:56:47Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - AMEGO: Active Memory from long EGOcentric videos [26.04157621755452]
非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。
AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに焦点を当てる。
この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。
論文 参考訳(メタデータ) (2024-09-17T06:18:47Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Enhanced Self-Perception in Mixed Reality: Egocentric Arm Segmentation
and Database with Automatic Labelling [1.0149624140985476]
本研究は、拡張仮想性における自己認識を改善するために、自我中心の腕のセグメンテーションに焦点を当てる。
GTEA Gaze+, EDSH, EgoHands, Ego Youtube Hands, THU-Read, TEgO, FPAB, Ego Gesture などの実効自我中心のデータセットについて報告する。
このタスクに対するEgoArmデータセットの適合性を確認し、元のネットワークに対して最大40%の改善を実現した。
論文 参考訳(メタデータ) (2020-03-27T12:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。