論文の概要: Generative Adversarial Network for Future Hand Segmentation from
Egocentric Video
- arxiv url: http://arxiv.org/abs/2203.11305v1
- Date: Mon, 21 Mar 2022 19:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:58:51.140601
- Title: Generative Adversarial Network for Future Hand Segmentation from
Egocentric Video
- Title(参考訳): エゴセントリックビデオからの将来のハンドセグメンテーションのためのジェネレーティブ・アドバイサル・ネットワーク
- Authors: Wenqi Jia, Miao Liu and James M. Rehg
- Abstract要約: 我々は,エゴビデオから未来のハンドマスクの時系列を予想する新たな問題を紹介した。
重要な課題は、将来の頭部の動きの時間性をモデル化することであり、これはヘッドウーンカメラの映像解析に世界的に影響を与える。
- 参考スコア(独自算出の注目度): 25.308139917320673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the novel problem of anticipating a time series of future hand
masks from egocentric video. A key challenge is to model the stochasticity of
future head motions, which globally impact the head-worn camera video analysis.
To this end, we propose a novel deep generative model -- EgoGAN, which uses a
3D Fully Convolutional Network to learn a spatio-temporal video representation
for pixel-wise visual anticipation, generates future head motion using
Generative Adversarial Network (GAN), and then predicts the future hand masks
based on the video representation and the generated future head motion. We
evaluate our method on both the EPIC-Kitchens and the EGTEA Gaze+ datasets. We
conduct detailed ablation studies to validate the design choices of our
approach. Furthermore, we compare our method with previous state-of-the-art
methods on future image segmentation and show that our method can more
accurately predict future hand masks.
- Abstract(参考訳): 我々は,エゴセントリックビデオから将来のハンドマスクの時系列を予測できる新しい問題を紹介する。
重要な課題は、将来の頭部の動きの確率性をモデル化することである。
そこで本研究では,3次元完全畳み込みネットワークを用いて画素方向の視覚予測のための時空間的映像表現を学習し,生成的逆向きネットワーク(gan)を用いて将来の頭部運動を生成し,映像表現と生成した頭部運動に基づいて将来の手マスクを予測する,新しい深部生成モデルを提案する。
本手法はEPIC-KitchensとEGTEA Gaze+データセットの両方で評価する。
我々は,このアプローチの設計選択を検証するために,詳細なアブレーション研究を行う。
さらに,今後の画像分割における従来の最先端手法と比較し,今後のハンドマスクをより正確に予測できることを示す。
関連論文リスト
- Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-05-25T23:55:47Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z) - Unsupervised Video Representation Learning by Bidirectional Feature
Prediction [16.074111448606512]
本稿では,特徴予測を用いた自己教師型映像表現学習手法を提案する。
我々は、観測されていない過去のフレームから発生する監視信号は、将来のフレームから生じるものと相補的であると論じる。
両信号の利用により,下流の行動認識タスクにおいて学習した表現が強化されることを実証的に示す。
論文 参考訳(メタデータ) (2020-11-11T19:42:31Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z) - Head2Head: Video-based Neural Head Synthesis [50.32988828989691]
顔再現のための新しい機械学習アーキテクチャを提案する。
提案手法は, 顔の表情, ポーズ, 視線を, 最先端の手法よりも正確に写実的な方法で対象映像に転送できることを示す。
論文 参考訳(メタデータ) (2020-05-22T00:44:43Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。