論文の概要: Challenges and Trends in Egocentric Vision: A Survey
- arxiv url: http://arxiv.org/abs/2503.15275v1
- Date: Wed, 19 Mar 2025 14:51:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:29.915637
- Title: Challenges and Trends in Egocentric Vision: A Survey
- Title(参考訳): エゴセントリックビジョンの課題と動向
- Authors: Xiang Li, Heqian Qiu, Lanxiao Wang, Hanwen Zhang, Chenghao Qi, Linfeng Han, Huiyu Xiong, Hongliang Li,
- Abstract要約: エゴセントリックな視覚は、人間の体に装着されたカメラやセンサーを通して、視覚的およびマルチモーダルなデータをキャプチャする。
本稿では,自我中心の視覚理解に関する研究を包括的に調査する。
最新の進歩を要約することで、拡張現実、バーチャルリアリティ、エンボディドインテリジェンスといった分野において、エゴセントリックなビジョン技術の幅広い応用が期待できる。
- 参考スコア(独自算出の注目度): 11.593894126370724
- License:
- Abstract: With the rapid development of artificial intelligence technologies and wearable devices, egocentric vision understanding has emerged as a new and challenging research direction, gradually attracting widespread attention from both academia and industry. Egocentric vision captures visual and multimodal data through cameras or sensors worn on the human body, offering a unique perspective that simulates human visual experiences. This paper provides a comprehensive survey of the research on egocentric vision understanding, systematically analyzing the components of egocentric scenes and categorizing the tasks into four main areas: subject understanding, object understanding, environment understanding, and hybrid understanding. We explore in detail the sub-tasks within each category. We also summarize the main challenges and trends currently existing in the field. Furthermore, this paper presents an overview of high-quality egocentric vision datasets, offering valuable resources for future research. By summarizing the latest advancements, we anticipate the broad applications of egocentric vision technologies in fields such as augmented reality, virtual reality, and embodied intelligence, and propose future research directions based on the latest developments in the field.
- Abstract(参考訳): 人工知能技術とウェアラブル機器の急速な発展に伴い、エゴセントリックな視覚理解は新たな研究方向として現れ、学術と産業の両方から徐々に注目を集めている。
Egocentric Visionは、人間の体に装着されたカメラやセンサーを通して、視覚的およびマルチモーダルなデータをキャプチャし、人間の視覚体験をシミュレートするユニークな視点を提供する。
本稿では,エゴセントリックな視覚理解の研究を包括的に調査し,エゴセントリックなシーンの構成要素を体系的に分析し,課題を主観的理解,オブジェクト理解,環境理解,ハイブリッドな理解の4つの領域に分類する。
各カテゴリのサブタスクについて詳しく調べる。
また、この分野に現在存在している主な課題とトレンドについてもまとめる。
さらに,本稿では,高品質な自己中心型視覚データセットの概要を述べるとともに,今後の研究に有用な資源を提供する。
最新の進歩を要約することで、拡張現実、バーチャルリアリティ、エンボディインテリジェンスといった分野におけるエゴセントリック・ビジョン技術の幅広い応用を予想し、その分野における最新の展開に基づく今後の研究方向を提案する。
関連論文リスト
- Fairness and Bias Mitigation in Computer Vision: A Survey [61.01658257223365]
コンピュータビジョンシステムは、高精細な現実世界のアプリケーションにますますデプロイされている。
歴史的または人為的なデータにおいて差別的な傾向を伝播または増幅しないことを確実にする必要がある。
本稿では,コンピュータビジョンの文脈における現在進行中の傾向と成功をまとめた,公平性に関する総合的な調査を行う。
論文 参考訳(メタデータ) (2024-08-05T13:44:22Z) - Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [129.08019405056262]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - Vision-based Learning for Drones: A Survey [1.280979348722635]
先進的なサイバー物理システムとしてのドローンは、視覚ベースの学習の出現とともに、変貌を遂げている。
このレビューでは、ドローンにおける視覚に基づく学習の包括的概要を提供し、その運用能力の向上における重要な役割を強調している。
我々は、単一エージェントシステムからより複雑なマルチエージェントおよび異種システムシナリオまで、学習機能を備えた視覚ベースのドローンの様々な応用について検討する。
論文 参考訳(メタデータ) (2023-12-08T12:57:13Z) - Unlocking the Emotional World of Visual Media: An Overview of the
Science, Research, and Impact of Understanding Emotion [24.920797480215242]
本稿では、視覚メディアにおける感情分析の分野について概観する。
本稿では、感情の心理的基礎と、イメージやビデオからの感情の理解の基盤となる計算原理について論じる。
これはコンピューティングにおける「Holy Grail」研究の問題であり、今後の調査において重要な方向を示すものであると我々は主張する。
論文 参考訳(メタデータ) (2023-07-25T12:47:21Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Visual Sensation and Perception Computational Models for Deep Learning:
State of the art, Challenges and Prospects [7.949330621850412]
視覚感覚と知覚は、環境認識と理解において視覚情報を検知し、整理し、識別し、解釈する過程を指す。
視覚知覚にインスパイアされた計算モデルは、認知科学、情報科学、人工知能など多くの分野から生まれた複雑さと多様性の特徴を持つ。
論文 参考訳(メタデータ) (2021-09-08T01:51:24Z) - Predicting the Future from First Person (Egocentric) Vision: A Survey [18.07516837332113]
この調査は、自我中心のビジョンから将来の予測の文脈における研究の進化を要約する。
アプリケーション、デバイス、既存の問題、一般的に使用されるデータセット、モデル、入力モダリティの概要を説明している。
我々の分析は、自我中心の視覚から将来の予測方法が、様々なアプリケーションに重大な影響を与えることを強調している。
論文 参考訳(メタデータ) (2021-07-28T14:58:13Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - A Review on Intelligent Object Perception Methods Combining
Knowledge-based Reasoning and Machine Learning [60.335974351919816]
物体知覚はコンピュータビジョンの基本的なサブフィールドである。
最近の研究は、物体の視覚的解釈のインテリジェンスレベルを拡大するために、知識工学を統合する方法を模索している。
論文 参考訳(メタデータ) (2019-12-26T13:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。