論文の概要: Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera
- arxiv url: http://arxiv.org/abs/2405.19794v1
- Date: Thu, 30 May 2024 08:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:28:56.587849
- Title: Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera
- Title(参考訳): エゴセントリック360度カメラを用いた視覚障害者の映像質問応答
- Authors: Inpyo Song, Minjun Joo, Joonhyung Kwon, Jangwon Lee,
- Abstract要約: 本稿では,視覚障害者が直面する日常的課題,例えば情報へのアクセス制限,ナビゲーションの困難,社会的相互作用への障壁について論じる。
これらの課題を軽減するために、我々は新しい視覚的質問応答データセットを導入する。
ビデオは360度エゴセントリックなウェアラブルカメラで撮影され、周囲全体を観察することができる。
- 参考スコア(独自算出の注目度): 2.427410108595295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the daily challenges encountered by visually impaired individuals, such as limited access to information, navigation difficulties, and barriers to social interaction. To alleviate these challenges, we introduce a novel visual question answering dataset. Our dataset offers two significant advancements over previous datasets: Firstly, it features videos captured using a 360-degree egocentric wearable camera, enabling observation of the entire surroundings, departing from the static image-centric nature of prior datasets. Secondly, unlike datasets centered on singular challenges, ours addresses multiple real-life obstacles simultaneously through an innovative visual-question answering framework. We validate our dataset using various state-of-the-art VideoQA methods and diverse metrics. Results indicate that while progress has been made, satisfactory performance levels for AI-powered assistive services remain elusive for visually impaired individuals. Additionally, our evaluation highlights the distinctive features of the proposed dataset, featuring ego-motion in videos captured via 360-degree cameras across varied scenarios.
- Abstract(参考訳): 本稿では,視覚障害者が直面する日常的課題,例えば情報へのアクセス制限,ナビゲーションの困難,社会的相互作用への障壁について論じる。
これらの課題を軽減するために、我々は新しい視覚的質問応答データセットを導入する。
第一に、360度エゴセントリックなウェアラブルカメラで撮影したビデオで、以前のデータセットの静的なイメージ中心の性質から離れて、周囲全体を観察することができる。
第二に、特異な課題を中心としたデータセットとは異なり、我々の研究は革新的な視覚探索応答フレームワークを通じて、複数の現実の障害に同時に対処する。
我々は、さまざまな最先端のVideoQA手法と多様なメトリクスを用いてデータセットを検証する。
結果は、進歩が進んでいるものの、AIを活用した支援サービスの満足なパフォーマンスレベルは、視覚障害のある人にはあり得ないことを示唆している。
さらに、提案したデータセットの特徴を強調し、様々なシナリオにまたがる360度カメラで撮影されたビデオのエゴモーションを特徴付ける。
関連論文リスト
- Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - 360+x: A Panoptic Multi-modal Scene Understanding Dataset [13.823967656097146]
360+xは、複数の視点を複数のデータモダリティでカバーする最初のデータベースである。
私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。
論文 参考訳(メタデータ) (2024-04-01T08:34:42Z) - RID-TWIN: An end-to-end pipeline for automatic face de-identification in videos [2.7569134765233536]
RID-Twinは、モーションからアイデンティティを分離して、ビデオの顔の自動識別を実行するパイプラインである。
本稿では,広く利用されているVoxCeleb2データセット上での方法論の性能を評価する。
論文 参考訳(メタデータ) (2024-03-15T06:59:21Z) - Video Recognition in Portrait Mode [98.3393666122704]
ポートレートモードビデオ認識のための最初のデータセットであるPortraitMode-400を開発した。
画像フォーマット(画像モードとランドスケープモード)が、異なるフォーマットによる認識精度と空間バイアスに与える影響を包括的に分析する。
本研究では,データ拡張の選択,評価手順,時間的情報の重要性,音声モダリティの役割など,ポートレートモード映像認識の重要な側面を探求する実験を設計する。
論文 参考訳(メタデータ) (2023-12-21T11:30:02Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Perceptual Quality Assessment of Omnidirectional Images as Moving Camera
Videos [49.217528156417906]
ユーザの視聴行動やパノラマの知覚的品質を決定するには,2種類のVR視聴条件が不可欠である。
まず、異なる視聴条件下での異なるユーザの視聴行動を用いて、一方向の画像を複数のビデオ表現に変換する。
次に、高度な2次元フルレファレンスビデオ品質モデルを活用して、知覚された品質を計算する。
論文 参考訳(メタデータ) (2020-05-21T10:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。