Fugu-MT 論文翻訳(概要): EGO-TOPO: Environment Affordances from Egocentric Video

論文の概要: EGO-TOPO: Environment Affordances from Egocentric Video

arxiv url: http://arxiv.org/abs/2001.04583v2
Date: Fri, 27 Mar 2020 20:30:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-11 12:44:16.858590
Title: EGO-TOPO: Environment Affordances from Egocentric Video
Title（参考訳）: EGO-TOPO:エゴセントリックビデオによる環境習慣
Authors: Tushar Nagarajan, Yanghao Li, Christoph Feichtenhofer, Kristen Grauman
Abstract要約: 本稿では,エゴセントリックビデオから直接学習した環境割当モデルを提案する。提案手法は,空間を一対一の活動から導かれた位相写像に分解する。 EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。
参考スコア（独自算出の注目度）: 104.77363598496133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: First-person video naturally brings the use of a physical environment to the forefront, since it shows the camera wearer interacting fluidly in a space based on his intentions. However, current methods largely separate the observed actions from the persistent space itself. We introduce a model for environment affordances that is learned directly from egocentric video. The main idea is to gain a human-centric model of a physical space (such as a kitchen) that captures (1) the primary spatial zones of interaction and (2) the likely activities they support. Our approach decomposes a space into a topological map derived from first-person activity, organizing an ego-video into a series of visits to the different zones. Further, we show how to link zones across multiple related environments (e.g., from videos of multiple kitchens) to obtain a consolidated representation of environment functionality. On EPIC-Kitchens and EGTEA+, we demonstrate our approach for learning scene affordances and anticipating future actions in long-form video.
Abstract（参考訳）: ファースト・パーソン・ビデオは、カメラの装着者が自分の意図に基づいて空間内で流動的に相互作用する様子を映し出すため、自然に物理環境を前面にもたらす。しかし、現在の手法は観測された動作を永続空間そのものから大きく分離している。我々は,エゴセントリックビデオから直接学習する環境余裕のモデルを紹介する。主なアイデアは、(1)相互作用の主要な空間的領域、(2)彼らが支援するであろう活動を取り込む、物理的空間(キッチンなど)の人間中心のモデルを得ることである。このアプローチでは,空間をファーストパーソン活動から派生したトポロジカルマップに分解し,エゴビデオから様々なゾーンへの一連の訪問を整理する。さらに,複数の関連環境(例えば,複数のキッチンのビデオから)にまたがるゾーンをリンクして,環境機能の統合表現を得る方法を示す。 EPIC-Kitchens と EGTEA+ では,シーン・アベイランスの学習と,ロングフォームビデオにおける今後の行動を予測するためのアプローチを実証する。

関連論文リスト

DIV-FF: Dynamic Image-Video Feature Fields For Environment Understanding in Egocentric Videos [3.2771631221674333]
我々は、エゴセントリックシーンを永続的、動的、アクターベースのコンポーネントに分解するフレームワークであるDynamic Image-Video Feature Fields (DIV FF)を紹介する。我々のモデルは、詳細なセグメンテーションを可能にし、余裕を捉え、周囲を理解し、時間とともに一貫した理解を維持する。
論文参考訳（メタデータ） (2025-03-11T11:55:04Z)
FIction: 4D Future Interaction Prediction from Video [63.37136159797888]
ビデオからの4次元未来のインタラクション予測のためのFIctionを紹介する。人間の活動のインプットビデオが与えられたら、その人が次に対話する3D位置のオブジェクトを予測することが目的だ。
論文参考訳（メタデータ） (2024-12-01T18:44:17Z)
Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文参考訳（メタデータ） (2024-09-29T10:46:19Z)
Egocentric zone-aware action recognition across environments [17.67702928208351]
活動中心のゾーンは、人間の活動を認識するビジョンモデルに優先する先駆けとして機能する。これらのゾーンの出現はシーン固有のものであり、この前の情報の未知の領域や領域への転送可能性を制限する。本稿では,Egocentric Action Recognition(EAR)モデルのドメイン間転送性を改善する方法について述べる。
論文参考訳（メタデータ） (2024-09-21T17:40:48Z)
EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文参考訳（メタデータ） (2024-06-28T10:39:36Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
EgoChoir: Capturing 3D Human-Object Interaction Regions from Egocentric Views [51.53089073920215]
エゴセントリックな人間と物体の相互作用(HOI)を理解することは、人間中心の知覚の基本的な側面である。既存の手法は主にHOIの観測を利用して、外心的な視点から相互作用領域を捉えている。 EgoChoirは、オブジェクト構造と、外見と頭部運動に固有の相互作用コンテキストを結びつけて、オブジェクトの余裕を明らかにする。
論文参考訳（メタデータ） (2024-05-22T14:03:48Z)
EgoEnv: Human-centric environment representations from egocentric video [60.34649902578047]
ファースト・パーソン・ビデオでは、永続的な環境の中でカメラの着用者の活動が強調される。現在のビデオ理解アプローチは、基礎となる物理空間から切り離された短いビデオクリップから視覚的特徴を引き出す。本稿では、カメラ装着者の(潜在的に見えない)地域環境を予測できる表現を学習することで、自我中心の映像と環境を結びつけるアプローチを提案する。
論文参考訳（メタデータ） (2022-07-22T22:39:57Z)
Video2Skill: Adapting Events in Demonstration Videos to Skills in an Environment using Cyclic MDP Homomorphisms [16.939129935919325]
Video2Skill(V2S)は、ロボットアームが人間の料理ビデオから学習できるようにすることで、この能力を人工知能に拡張しようとしている。まずシーケンシャル・ツー・シーケンス・オートエンコーダ・スタイルのアーキテクチャを用いて,長期にわたる実演におけるイベントの時間潜在空間を学習する。次に、少数のオフラインおよび無関係な相互作用データを用いて、これらの表現をロボットターゲットドメインに転送する。
論文参考訳（メタデータ） (2021-09-08T17:59:01Z)
Egocentric Activity Recognition and Localization on a 3D Map [94.30708825896727]
我々は,エゴセントリックなビデオから既知の3Dマップ上で,モバイルユーザの行動を共同で認識し,位置決めする問題に対処する。本モデルでは,環境の階層的容積表現(HVR)とエゴセントリックなビデオの入力を取得し,その3次元動作位置を潜在変数として推定し,その潜在的な位置を囲む映像および文脈的手がかりに基づいて動作を認識する。
論文参考訳（メタデータ） (2021-05-20T06:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。