論文の概要: Egocentric Scene Understanding via Multimodal Spatial Rectifier
- arxiv url: http://arxiv.org/abs/2207.07077v1
- Date: Thu, 14 Jul 2022 17:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 12:32:14.174510
- Title: Egocentric Scene Understanding via Multimodal Spatial Rectifier
- Title(参考訳): マルチモーダル空間整流器による自己中心的情景理解
- Authors: Tien Do, Khiem Vuong, Hyun Soo Park
- Abstract要約: 我々は,エゴセントリックなシーン理解の問題,すなわち,エゴセントリックなイメージからの予測と表面正規化について検討する。
我々は500K以上の同期RGBDフレームと重力方向からなるEDINAと呼ばれる新しいデータセットを提案する。
単視点深度推定法と表面正規度推定法は,ベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 21.878225397301364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study a problem of egocentric scene understanding, i.e.,
predicting depths and surface normals from an egocentric image. Egocentric
scene understanding poses unprecedented challenges: (1) due to large head
movements, the images are taken from non-canonical viewpoints (i.e., tilted
images) where existing models of geometry prediction do not apply; (2) dynamic
foreground objects including hands constitute a large proportion of visual
scenes. These challenges limit the performance of the existing models learned
from large indoor datasets, such as ScanNet and NYUv2, which comprise
predominantly upright images of static scenes. We present a multimodal spatial
rectifier that stabilizes the egocentric images to a set of reference
directions, which allows learning a coherent visual representation. Unlike
unimodal spatial rectifier that often produces excessive perspective warp for
egocentric images, the multimodal spatial rectifier learns from multiple
directions that can minimize the impact of the perspective warp. To learn
visual representations of the dynamic foreground objects, we present a new
dataset called EDINA (Egocentric Depth on everyday INdoor Activities) that
comprises more than 500K synchronized RGBD frames and gravity directions.
Equipped with the multimodal spatial rectifier and the EDINA dataset, our
proposed method on single-view depth and surface normal estimation
significantly outperforms the baselines not only on our EDINA dataset, but also
on other popular egocentric datasets, such as First Person Hand Action (FPHA)
and EPIC-KITCHENS.
- Abstract(参考訳): 本稿では,エゴセントリックなシーン理解の問題,すなわち,エゴセントリックなイメージから深度や表面の正常さを予測することを検討する。
自我中心的情景理解は前例のない課題である:(1)大きな頭部の動きのために、既存の幾何学的予測が適用されないノンカノニカルな視点(すなわち傾き画像)から画像を取り出す;(2)手を含む動的前景は視覚シーンの多さを構成する。
これらの課題は、静的シーンのアップライトイメージで構成されるScanNetやNYUv2といった大規模な屋内データセットから学んだ既存のモデルのパフォーマンスを制限する。
本稿では,エゴセントリック画像を参照方向の集合に安定化させ,コヒーレントな視覚表現を学習する多モード空間整形器を提案する。
自己中心像に対して過大な遠近感を与えるユニモーダル空間整流器とは異なり、マルチモーダル空間整流器は視点整流器の影響を最小化する複数の方向から学習する。
ダイナミックフォアグラウンドオブジェクトの視覚的表現を学ぶために,500k以上の同期rgbdフレームと重力方向からなるedina(egocentric depth on everyday indoor activities)と呼ばれる新しいデータセットを提案する。
マルチモーダル空間整形器とEDINAデータセットを併用した単視点深度と表面正規度推定法は,EDINAデータセットだけでなく,FPHAやEPIC-KITCHENSなどの一般的なエゴセントリックデータセットよりも有意に優れていた。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Scene-aware Egocentric 3D Human Pose Estimation [72.57527706631964]
頭部に1台の魚眼カメラを装着したエゴセントリックな3Dポーズ推定は、仮想現実や拡張現実における多くの応用により、近年注目を集めている。
既存の方法はまだ、人間の体が非常に隠蔽されている、あるいはシーンと密接な相互作用がある、挑戦的なポーズに苦慮している。
本研究では,シーン制約による自己中心型ポーズの予測を導くシーン認識型自己中心型ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T21:35:39Z) - Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文 参考訳(メタデータ) (2022-11-30T12:50:40Z) - Visual Attention-based Self-supervised Absolute Depth Estimation using
Geometric Priors in Autonomous Driving [8.045833295463094]
空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを導入する。
VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって連続的に抽出することにより、重要な詳細を効果的に保存することができる。
KITTIデータセットの実験結果は、このアーキテクチャが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2022-05-18T08:01:38Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Learning Geocentric Object Pose in Oblique Monocular Images [18.15647135620892]
オブジェクトのジオセントリックなポーズは、地上の高さと重力に対する向きとして定義され、RGBD画像を用いたオブジェクトの検出、セグメンテーション、ローカライゼーションタスクのための現実世界の構造の強力な表現である。
我々は,この課題に対処するために,ジオセントリックなポーズの符号化を開発し,この表現を高密度に計算するために深層ネットワークを訓練する。
これらの属性を利用して斜め画像を修正し、観測対象視差を除去し、局所化の精度を劇的に向上させ、非常に異なる斜めの視点から撮影された複数の画像の正確なアライメントを可能にする。
論文 参考訳(メタデータ) (2020-07-01T20:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。