論文の概要: Identifying Crucial Objects in Blind and Low-Vision Individuals' Navigation
- arxiv url: http://arxiv.org/abs/2408.13175v1
- Date: Fri, 23 Aug 2024 15:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 14:30:31.833295
- Title: Identifying Crucial Objects in Blind and Low-Vision Individuals' Navigation
- Title(参考訳): 盲人・低視野者ナビゲーションにおける地殻物体の同定
- Authors: Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce, Md Alimoor Reza, Syed Masum Billah,
- Abstract要約: 本稿では,視覚障害者と低視野者(BLV)のナビゲーションに不可欠な90個の物体のキュレートしたリストを示す。
BLVの個人が様々な設定をナビゲートした21の公開ビデオを分析して、初期リストを作成する。
その後の分析では、最近のコンピュータビジョンモデルのトレーニングに使われているほとんどの現代のデータセットは、提案したリストにあるオブジェクトの小さなサブセットしか含まないことが明らかとなった。
- 参考スコア(独自算出の注目度): 4.413331329339185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a curated list of 90 objects essential for the navigation of blind and low-vision (BLV) individuals, encompassing road, sidewalk, and indoor environments. We develop the initial list by analyzing 21 publicly available videos featuring BLV individuals navigating various settings. Then, we refine the list through feedback from a focus group study involving blind, low-vision, and sighted companions of BLV individuals. A subsequent analysis reveals that most contemporary datasets used to train recent computer vision models contain only a small subset of the objects in our proposed list. Furthermore, we provide detailed object labeling for these 90 objects across 31 video segments derived from the original 21 videos. Finally, we make the object list, the 21 videos, and object labeling in the 31 video segments publicly available. This paper aims to fill the existing gap and foster the development of more inclusive and effective navigation aids for the BLV community.
- Abstract(参考訳): 本稿では,道路,歩道,屋内環境を包含する盲人・低視者(BLV)のナビゲーションに不可欠な90のオブジェクトのキュレートリストについて述べる。
BLVの個人が様々な設定をナビゲートした21の公開ビデオを分析して、初期リストを作成する。
そこで我々は,視力,視力,視力の低いBLV個体群を対象とした焦点群研究からフィードバックを得て,リストを精査する。
その後の分析では、最近のコンピュータビジョンモデルのトレーニングに使われているほとんどの現代のデータセットは、提案したリストにあるオブジェクトの小さなサブセットしか含まないことが明らかとなった。
さらに、オリジナル21ビデオから派生した31ビデオセグメントにまたがる90のオブジェクトに対して、詳細なオブジェクトラベルを提供する。
最後に、31ビデオセグメントのオブジェクトリスト、21のビデオ、およびオブジェクトラベルを公開します。
本稿では,既存のギャップを埋め,BLVコミュニティにおけるより包括的で効果的なナビゲーション支援の開発を促進することを目的とする。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - A New People-Object Interaction Dataset and NVS Benchmarks [16.909004722367644]
そこで本研究では,30-viewのマルチパーソンまたは1対1のRGB-Dビデオシーケンスからなる新たな人物オブジェクトインタラクションデータセットを提案する。
ビデオシーケンスは30のKinect Azureによってキャプチャされ、シーンを均一に囲み、それぞれ4K解像度25 FPSで、1$sim$19秒続く。
論文 参考訳(メタデータ) (2024-09-03T08:54:15Z) - A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation [4.413331329339185]
本稿では,視覚障害者や視覚障害者のナビゲーション作業を支援するリアルタイム物体認識システムを構築するためのデータセットを提案する。
このデータセットは、屋外空間をナビゲートするBLV個体の21の動画と、焦点グループによる研究によって改善されたBLVナビゲーションに不可欠な90のオブジェクトの分類から成っている。
論文 参考訳(メタデータ) (2024-07-23T18:19:27Z) - 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - A Density-Guided Temporal Attention Transformer for Indiscernible Object
Counting in Underwater Video [27.329015161325962]
周囲に混在する対象の数を数えることを目的とした、識別不能な対象数カウントは、課題となっている。
本稿では,35の高精細ビデオを含むYoutubeFish-35という大規模データセットを提案する。
統合されたフレームワークにおいて、時間領域に沿って密度と回帰の分岐を結合した新しい強力なベースラインであるTransVidCountを提案する。
論文 参考訳(メタデータ) (2024-03-06T04:54:00Z) - Tracking Anything in High Quality [63.63653185865726]
HQTrackは高品質なビデオ追跡のためのフレームワークだ。
ビデオマルチオブジェクトセグメンタ(VMOS)とマスクリファインダ(MR)で構成されている。
論文 参考訳(メタデータ) (2023-07-26T06:19:46Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。