論文の概要: EGO-TOPO: Environment Affordances from Egocentric Video
- arxiv url: http://arxiv.org/abs/2001.04583v2
- Date: Fri, 27 Mar 2020 20:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:44:16.858590
- Title: EGO-TOPO: Environment Affordances from Egocentric Video
- Title(参考訳): EGO-TOPO:エゴセントリックビデオによる環境習慣
- Authors: Tushar Nagarajan, Yanghao Li, Christoph Feichtenhofer, Kristen Grauman
- Abstract要約: 本稿では,エゴセントリックビデオから直接学習した環境割当モデルを提案する。
提案手法は,空間を一対一の活動から導かれた位相写像に分解する。
EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。
- 参考スコア(独自算出の注目度): 104.77363598496133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: First-person video naturally brings the use of a physical environment to the
forefront, since it shows the camera wearer interacting fluidly in a space
based on his intentions. However, current methods largely separate the observed
actions from the persistent space itself. We introduce a model for environment
affordances that is learned directly from egocentric video. The main idea is to
gain a human-centric model of a physical space (such as a kitchen) that
captures (1) the primary spatial zones of interaction and (2) the likely
activities they support. Our approach decomposes a space into a topological map
derived from first-person activity, organizing an ego-video into a series of
visits to the different zones. Further, we show how to link zones across
multiple related environments (e.g., from videos of multiple kitchens) to
obtain a consolidated representation of environment functionality. On
EPIC-Kitchens and EGTEA+, we demonstrate our approach for learning scene
affordances and anticipating future actions in long-form video.
- Abstract(参考訳): ファースト・パーソン・ビデオは、カメラの装着者が自分の意図に基づいて空間内で流動的に相互作用する様子を映し出すため、自然に物理環境を前面にもたらす。
しかし、現在の手法は観測された動作を永続空間そのものから大きく分離している。
我々は,エゴセントリックビデオから直接学習する環境余裕のモデルを紹介する。
主なアイデアは、(1)相互作用の主要な空間的領域、(2)彼らが支援するであろう活動を取り込む、物理的空間(キッチンなど)の人間中心のモデルを得ることである。
このアプローチでは,空間をファーストパーソン活動から派生したトポロジカルマップに分解し,エゴビデオから様々なゾーンへの一連の訪問を整理する。
さらに,複数の関連環境(例えば,複数のキッチンのビデオから)にまたがるゾーンをリンクして,環境機能の統合表現を得る方法を示す。
EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。
関連論文リスト
- Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - The Audio-Visual Conversational Graph: From an Egocentric-Exocentric
Perspective [37.90278874061934]
本稿では,Ego-Exocentric Conversational Graph Prediction問題を紹介する。
Av-CONV(Av-Visual Conversational Attention)によるマルチモーダル・マルチタスク統合フレームワークを提案する。
具体的には、自己認識機構をカスタマイズして、オブジェクト間、オブジェクト間、モダリティ間の表現をモデル化する。
論文 参考訳(メタデータ) (2023-12-20T09:34:22Z) - EgoEnv: Human-centric environment representations from egocentric video [60.34649902578047]
ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。
現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。
本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-22T22:39:57Z) - Interaction Replica: Tracking human-object interaction and scene changes
from human motion [67.42489661574325]
iReplicaは、人間の動きのみに基づいて物体やシーンの変化を追跡する、初めての人間と物体の相互作用推論手法である。
私たちのコード、データ、モデルは、プロジェクトのページ http://virtual humans.mpi-inf.mpg.de/ireplica/.comで公開されます。
論文 参考訳(メタデータ) (2022-05-05T17:58:06Z) - Video2Skill: Adapting Events in Demonstration Videos to Skills in an
Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。
まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。
次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文 参考訳(メタデータ) (2021-09-08T17:59:01Z) - Egocentric Activity Recognition and Localization on a 3D Map [94.30708825896727]
我々は,エゴセントリックなビデオから既知の3Dマップ上で,モバイルユーザの行動を共同で認識し,位置決めする問題に対処する。
本モデルでは,環境の階層的容積表現(HVR)とエゴセントリックなビデオの入力を取得し,その3次元動作位置を潜在変数として推定し,その潜在的な位置を囲む映像および文脈的手がかりに基づいて動作を認識する。
論文 参考訳(メタデータ) (2021-05-20T06:58:15Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - Learning Affordance Landscapes for Interaction Exploration in 3D
Environments [101.90004767771897]
エージェントは環境の仕組みを習得できなければならない。
相互作用探索のための強化学習手法を提案する。
AI2-iTHORで私たちのアイデアを実証します。
論文 参考訳(メタデータ) (2020-08-21T00:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。