論文の概要: Is Tracking really more challenging in First Person Egocentric Vision?
- arxiv url: http://arxiv.org/abs/2507.16015v1
- Date: Mon, 21 Jul 2025 19:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.862388
- Title: Is Tracking really more challenging in First Person Egocentric Vision?
- Title(参考訳): ファーストパーソン・エゴセントリック・ビジョンにおいてトラッキングは本当に難しいのか?
- Authors: Matteo Dunnhofer, Zaira Manigrasso, Christian Micheloni,
- Abstract要約: 最近の研究では、最先端の手法をベンチマークし、第一人物の自我中心のビジョンが課題を提示していると結論付けている。
自我中心の視覚に起因する難解な特徴の多くは、人間の対象活動の3人称ビデオにも存在している。
観察されたパフォーマンス低下のどれ程が、人間とオブジェクトのアクティビティのドメインに対して、ユニークなファーストパーソンの視点から来ているのか?
- 参考スコア(独自算出の注目度): 10.025424391350027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual object tracking and segmentation are becoming fundamental tasks for understanding human activities in egocentric vision. Recent research has benchmarked state-of-the-art methods and concluded that first person egocentric vision presents challenges compared to previously studied domains. However, these claims are based on evaluations conducted across significantly different scenarios. Many of the challenging characteristics attributed to egocentric vision are also present in third person videos of human-object activities. This raises a critical question: how much of the observed performance drop stems from the unique first person viewpoint inherent to egocentric vision versus the domain of human-object activities? To address this question, we introduce a new benchmark study designed to disentangle such factors. Our evaluation strategy enables a more precise separation of challenges related to the first person perspective from those linked to the broader domain of human-object activity understanding. By doing so, we provide deeper insights into the true sources of difficulty in egocentric tracking and segmentation, facilitating more targeted advancements on this task.
- Abstract(参考訳): 視覚的物体追跡とセグメンテーションは、自我中心の視覚における人間の活動を理解するための基本的なタスクになりつつある。
最近の研究では、最先端の手法をベンチマークし、最初の人物の自我中心のビジョンは、以前研究されたドメインと比較して課題を提示する、と結論付けている。
しかし、これらの主張は、異なるシナリオで実施された評価に基づいている。
自我中心の視覚に起因する難解な特徴の多くは、人間の対象活動の3人称ビデオにも存在している。
これは、観察されたパフォーマンス低下のどれ程が、自我中心の視覚と人的対象活動の領域に固有の第一の視点に由来するのかという批判的な疑問を提起する。
この問題に対処するために,そのような要因を解消するための新しいベンチマーク研究を導入する。
我々の評価戦略は、人的対象の行動理解のより広い領域に関連するものから、一人称視点に関連する課題をより正確に分離することを可能にする。
これにより、エゴセントリックなトラッキングとセグメンテーションにおける真の困難さの源泉についてより深い洞察を与え、このタスクのより標的となる進歩を促進する。
関連論文リスト
- Bridging Perspectives: A Survey on Cross-view Collaborative Intelligence with Egocentric-Exocentric Vision [35.766320269860245]
エゴセントリック(第一人)とエゴセントリック(第三人)の両方の観点から世界を認識することは、人間の認知に不可欠である。
本稿では,エキソセントリックな視点とエゴセントリックな視点の両方から,映像理解のレビューを行う。
論文 参考訳(メタデータ) (2025-06-06T17:25:48Z) - Emergent Active Perception and Dexterity of Simulated Humanoids from Visual Reinforcement Learning [69.71072181304066]
本稿では,擬似ヒューマノイドを用いた視覚駆動全身制御フレームワークであるPerceptive Dexterous Control (PDC)を紹介する。
PDCは、タスク仕様のためのエゴセントリックなビジョンのみを運用し、ビジュアルキューによるオブジェクト検索、ターゲット配置、スキル選択を可能にする。
強化学習によるスクラッチからのトレーニングは,能動探索などの創発的な行動を引き起こす可能性があることを示す。
論文 参考訳(メタデータ) (2025-05-18T07:33:31Z) - Challenges and Trends in Egocentric Vision: A Survey [11.593894126370724]
エゴセントリックな視覚は、人間の体に装着されたカメラやセンサーを通して、視覚的およびマルチモーダルなデータをキャプチャする。
本稿では,自我中心の視覚理解に関する研究を包括的に調査する。
最新の進歩を要約することで、拡張現実、バーチャルリアリティ、エンボディドインテリジェンスといった分野において、エゴセントリックなビジョン技術の幅広い応用が期待できる。
論文 参考訳(メタデータ) (2025-03-19T14:51:27Z) - EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。
既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。
EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文 参考訳(メタデータ) (2024-05-22T14:03:48Z) - Benchmarks and Challenges in Pose Estimation for Egocentric Hand Interactions with Objects [89.95728475983263]
ロボティクス、AR/VR、アクション認識、モーション生成といったタスクにおいて、自己中心的な視点からこのようなインタラクションを理解することが重要である。
我々は、AmblyHandsとARCTICデータセットに基づいたHANDS23チャレンジを、慎重に設計されたトレーニングとテストの分割に基づいて設計する。
提案手法の結果と近年のリーダーボードのベースラインに基づいて,3Dハンド(オブジェクト)再構成タスクの徹底的な解析を行う。
論文 参考訳(メタデータ) (2024-03-25T05:12:21Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - Estimating Egocentric 3D Human Pose in the Wild with External Weak
Supervision [72.36132924512299]
本稿では,大規模な自己中心型データセットでトレーニング可能な,新たな自己中心型ポーズ推定手法を提案する。
本研究では,事前学習された外部視点のポーズ推定モデルにより抽出された高品質な特徴を用いて,エゴセントリックな特徴を監督する新しい学習戦略を提案する。
実験により,本手法は,1つの画像から正確な3Dポーズを予測し,定量的,定性的に,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-01-20T00:45:13Z) - Understanding top-down attention using task-oriented ablation design [0.22940141855172028]
トップダウンの注目により、ニューラルネットワークは、人工的および生物学的の両方において、与えられたタスクに最も関連性の高い情報に集中することができる。
我々は,タスク指向アブレーション設計と呼ばれる一般的なフレームワークに基づく計算実験により,この問題に対処することを目指している。
2つのニューラルネットワークの性能を比較する。
論文 参考訳(メタデータ) (2021-06-08T21:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。