論文の概要: Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision
- arxiv url: http://arxiv.org/abs/2506.06253v1
- Date: Fri, 06 Jun 2025 17:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.568459
- Title: Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision
- Title(参考訳): ブリッジング・パースペクティブ:エゴセントリック・エクソセントリック・ビジョンを用いたクロスビューコラボレーション・インテリジェンスに関する調査
- Authors: Yuping He, Yifei Huang, Guo Chen, Lidong Lu, Baoqi Pei, Jilan Xu, Tong Lu, Yoichi Sato,
- Abstract要約: エゴセントリック(第一人)とエゴセントリック(第三人)の両方の観点から世界を認識することは、人間の認知に不可欠である。
本稿では,エキソセントリックな視点とエゴセントリックな視点の両方から,映像理解のレビューを行う。
- 参考スコア(独自算出の注目度): 35.766320269860245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Perceiving the world from both egocentric (first-person) and exocentric (third-person) perspectives is fundamental to human cognition, enabling rich and complementary understanding of dynamic environments. In recent years, allowing the machines to leverage the synergistic potential of these dual perspectives has emerged as a compelling research direction in video understanding. In this survey, we provide a comprehensive review of video understanding from both exocentric and egocentric viewpoints. We begin by highlighting the practical applications of integrating egocentric and exocentric techniques, envisioning their potential collaboration across domains. We then identify key research tasks to realize these applications. Next, we systematically organize and review recent advancements into three main research directions: (1) leveraging egocentric data to enhance exocentric understanding, (2) utilizing exocentric data to improve egocentric analysis, and (3) joint learning frameworks that unify both perspectives. For each direction, we analyze a diverse set of tasks and relevant works. Additionally, we discuss benchmark datasets that support research in both perspectives, evaluating their scope, diversity, and applicability. Finally, we discuss limitations in current works and propose promising future research directions. By synthesizing insights from both perspectives, our goal is to inspire advancements in video understanding and artificial intelligence, bringing machines closer to perceiving the world in a human-like manner. A GitHub repo of related works can be found at https://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Vision.
- Abstract(参考訳): エゴセントリック(第一人)とエクソセントリック(第三人)の両方の観点から世界を認識することは、人間の認知の基本であり、動的環境の豊かで相補的な理解を可能にする。
近年,この2つの視点の相乗的ポテンシャルを機械が利用できるようにすることが,映像理解における説得力のある研究方向として浮上している。
本稿では,エキソセントリックな視点とエゴセントリックな視点の両方から,映像理解の総合的なレビューを行う。
私たちはまず、エゴセントリックなテクニックとエクソセントリックなテクニックを統合する実践的応用を強調し、ドメイン間の潜在的なコラボレーションを想定することから始めます。
そして、これらの応用を実現するための重要な研究課題を特定する。
次に,近年の進歩を,(1)エゴセントリックなデータを活用してエゴセントリックな理解を高める,(2)エゴセントリックな分析を改善するためにエゴセントリックなデータを活用する,(3)両視点を統一する共同学習フレームワークの3つに体系的に整理・レビューする。
各方向について、さまざまなタスクセットと関連する作業を分析します。
さらに、両視点での研究を支援し、そのスコープ、多様性、適用性を評価するベンチマークデータセットについても論じる。
最後に,現状の限界について論じ,将来的な研究の方向性を提案する。
両方の視点から洞察を合成することで、私たちのゴールは、ビデオ理解と人工知能の進歩を刺激し、機械が人間のような方法で世界を知覚するようになることです。
GitHub関連の作業のリポジトリはhttps://github.com/ayiyayi/Awesome-Egocentric-and-Exocentric-Visionにある。
関連論文リスト
- Challenges and Trends in Egocentric Vision: A Survey [11.593894126370724]
エゴセントリックな視覚は、人間の体に装着されたカメラやセンサーを通して、視覚的およびマルチモーダルなデータをキャプチャする。
本稿では,自我中心の視覚理解に関する研究を包括的に調査する。
最新の進歩を要約することで、拡張現実、バーチャルリアリティ、エンボディドインテリジェンスといった分野において、エゴセントリックなビジョン技術の幅広い応用が期待できる。
論文 参考訳(メタデータ) (2025-03-19T14:51:27Z) - EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。
我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。
この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。
私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文 参考訳(メタデータ) (2025-03-05T18:54:16Z) - EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。
実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。
我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文 参考訳(メタデータ) (2025-01-31T11:48:22Z) - Egocentric and Exocentric Methods: A Short Survey [25.41820386246096]
エゴセントリックな視覚は、カメラ装着者の視点からシーンを捉えます。
外見中心の視覚はシーン全体のコンテキストを捉えます。
エゴとエクソビューの併用モデリングは、次世代AIエージェントの開発に不可欠である。
論文 参考訳(メタデータ) (2024-10-27T22:38:51Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Vision-Based Manipulators Need to Also See from Their Hands [58.398637422321976]
本研究では,視覚的視点の選択が,生のセンサ観測から身体操作の文脈における学習と一般化にどう影響するかを検討する。
手中心(目の)視点は可観測性を低下させるが、トレーニング効率とアウト・オブ・ディストリビューションの一般化を一貫して改善する。
論文 参考訳(メタデータ) (2022-03-15T18:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。