論文の概要: A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation
- arxiv url: http://arxiv.org/abs/2407.16777v1
- Date: Tue, 23 Jul 2024 18:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:44:18.288720
- Title: A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation
- Title(参考訳): 盲人・低視野者ナビゲーションにおける地殻物体認識のためのデータセット
- Authors: Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce, Md Alimoor Reza, Syed Masum Billah,
- Abstract要約: 本稿では,視覚障害者や視覚障害者のナビゲーション作業を支援するリアルタイム物体認識システムを構築するためのデータセットを提案する。
このデータセットは、屋外空間をナビゲートするBLV個体の21の動画と、焦点グループによる研究によって改善されたBLVナビゲーションに不可欠な90のオブジェクトの分類から成っている。
- 参考スコア(独自算出の注目度): 4.413331329339185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a dataset for improving real-time object recognition systems to aid blind and low-vision (BLV) individuals in navigation tasks. The dataset comprises 21 videos of BLV individuals navigating outdoor spaces, and a taxonomy of 90 objects crucial for BLV navigation, refined through a focus group study. We also provide object labeling for the 90 objects across 31 video segments created from the 21 videos. A deeper analysis reveals that most contemporary datasets used in training computer vision models contain only a small subset of the taxonomy in our dataset. Preliminary evaluation of state-of-the-art computer vision models on our dataset highlights shortcomings in accurately detecting key objects relevant to BLV navigation, emphasizing the need for specialized datasets. We make our dataset publicly available, offering valuable resources for developing more inclusive navigation systems for BLV individuals.
- Abstract(参考訳): 本稿では,視覚障害者や視覚障害者のナビゲーション作業を支援するリアルタイム物体認識システムを構築するためのデータセットを提案する。
このデータセットは、屋外空間をナビゲートするBLV個体の21の動画と、焦点グループによる研究によって改善されたBLVナビゲーションに不可欠な90のオブジェクトの分類から成っている。
また、21の動画から生成された31のビデオセグメントにわたる90のオブジェクトに対して、オブジェクトラベルを提供する。
より深い分析により、コンピュータビジョンモデルのトレーニングに使用されるほとんどの現代のデータセットは、データセットに分類の小さなサブセットしか含まれていないことが明らかになった。
我々のデータセットにおける最先端コンピュータビジョンモデルの予備評価は、BLVナビゲーションに関連する重要なオブジェクトを正確に検出する際の欠点を強調し、特別なデータセットの必要性を強調している。
私たちはデータセットを公開し、BLV個人のためのより包括的なナビゲーションシステムを開発するための貴重なリソースを提供します。
関連論文リスト
- Identifying Crucial Objects in Blind and Low-Vision Individuals' Navigation [4.413331329339185]
本稿では,視覚障害者と低視野者(BLV)のナビゲーションに不可欠な90個の物体のキュレートしたリストを示す。
BLVの個人が様々な設定をナビゲートした21の公開ビデオを分析して、初期リストを作成する。
その後の分析では、最近のコンピュータビジョンモデルのトレーニングに使われているほとんどの現代のデータセットは、提案したリストにあるオブジェクトの小さなサブセットしか含まないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-23T15:50:50Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - The Visual Experience Dataset: Over 200 Recorded Hours of Integrated Eye Movement, Odometry, and Egocentric Video [0.9644266648330361]
Visual Experienceデータセットは717のセッションで構成されており、6歳から49歳の58人の観察者が記録している。
VEDBの潜在的な応用には、ビデオトラッキング方法論の改善、画像統計の評価、シーンとアクティビティの認識のためのディープニューラルネットワークの精細化などがある。
論文 参考訳(メタデータ) (2024-02-15T10:34:28Z) - SynDrone -- Multi-modal UAV Dataset for Urban Scenarios [11.338399194998933]
ピクセルレベルのアノテーションを持つ大規模な実際のデータセットの不足は、研究者にとって大きな課題となっている。
本研究では,複数の飛行高度で撮影された画像と3次元データを含むマルチモーダル合成データセットを提案する。
データセットは、UAVアプリケーションをターゲットにした新しいコンピュータビジョンメソッドの開発をサポートするために公開されます。
論文 参考訳(メタデータ) (2023-08-21T06:22:10Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - A Survey on RGB-D Datasets [69.73803123972297]
本稿では,深度情報を含む画像データセットをレビューし,分類した。
アクセス可能なデータを含む203のデータセットを収集し、それらをシーン/オブジェクト、ボディ、医療の3つのカテゴリに分類しました。
論文 参考訳(メタデータ) (2022-01-15T05:35:19Z) - Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge [133.80567761430584]
我々はOVISと呼ばれる大規模データセットを収集し、隠されたシナリオでビデオインスタンスのセグメンテーションを行う。
OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。
全てのベースライン法は、強吸収対象群で約80%の性能低下に遭遇する。
論文 参考訳(メタデータ) (2021-11-15T17:59:03Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。