論文の概要: Generative Adversarial Network for Future Hand Segmentation from
Egocentric Video
- arxiv url: http://arxiv.org/abs/2203.11305v1
- Date: Mon, 21 Mar 2022 19:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:58:51.140601
- Title: Generative Adversarial Network for Future Hand Segmentation from
Egocentric Video
- Title(参考訳): エゴセントリックビデオからの将来のハンドセグメンテーションのためのジェネレーティブ・アドバイサル・ネットワーク
- Authors: Wenqi Jia, Miao Liu and James M. Rehg
- Abstract要約: 我々は,エゴビデオから未来のハンドマスクの時系列を予想する新たな問題を紹介した。
重要な課題は、将来の頭部の動きの時間性をモデル化することであり、これはヘッドウーンカメラの映像解析に世界的に影響を与える。
- 参考スコア(独自算出の注目度): 25.308139917320673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the novel problem of anticipating a time series of future hand
masks from egocentric video. A key challenge is to model the stochasticity of
future head motions, which globally impact the head-worn camera video analysis.
To this end, we propose a novel deep generative model -- EgoGAN, which uses a
3D Fully Convolutional Network to learn a spatio-temporal video representation
for pixel-wise visual anticipation, generates future head motion using
Generative Adversarial Network (GAN), and then predicts the future hand masks
based on the video representation and the generated future head motion. We
evaluate our method on both the EPIC-Kitchens and the EGTEA Gaze+ datasets. We
conduct detailed ablation studies to validate the design choices of our
approach. Furthermore, we compare our method with previous state-of-the-art
methods on future image segmentation and show that our method can more
accurately predict future hand masks.
- Abstract(参考訳): 我々は,エゴセントリックビデオから将来のハンドマスクの時系列を予測できる新しい問題を紹介する。
重要な課題は、将来の頭部の動きの確率性をモデル化することである。
そこで本研究では,3次元完全畳み込みネットワークを用いて画素方向の視覚予測のための時空間的映像表現を学習し,生成的逆向きネットワーク(gan)を用いて将来の頭部運動を生成し,映像表現と生成した頭部運動に基づいて将来の手マスクを予測する,新しい深部生成モデルを提案する。
本手法はEPIC-KitchensとEGTEA Gaze+データセットの両方で評価する。
我々は,このアプローチの設計選択を検証するために,詳細なアブレーション研究を行う。
さらに,今後の画像分割における従来の最先端手法と比較し,今後のハンドマスクをより正確に予測できることを示す。
関連論文リスト
- E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - Forecasting Future Videos from Novel Views via Disentangled 3D Scene Representation [54.60804602905519]
我々は、階層化されたシーン形状、動き予測、新しいビュー合成を一緒にモデル化することを目的として、絡み合った表現を学習する。
本手法では,2次元のシーンを3次元の点群に持ち上げることによって,シーン形状をシーンの動きから切り離す。
将来の3次元シーンの動作をモデル化するために,まず自我運動を予測し,その後に動的物体の残留運動を予測する2段階のアンタングル手法を提案する。
論文 参考訳(メタデータ) (2024-07-31T08:54:50Z) - Video Prediction Models as General Visual Encoders [0.0]
研究者らは、映像予測モデルを一般的な視覚エンコーダとして使用し、重要な空間的・時間的情報をキャプチャする能力を活用することを提案する。
人間の視覚研究にインスパイアされたこの手法は、画像から動きを表す潜在空間を開発することを目的としている。
実験には、事前訓練されたビデオ生成モデルの適用、潜伏空間の分析、フォアグラウンド・バックグラウンド・セグメンテーションのためのカスタムデコーダのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-05-25T23:55:47Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z) - Unsupervised Video Representation Learning by Bidirectional Feature
Prediction [16.074111448606512]
本稿では,特徴予測を用いた自己教師型映像表現学習手法を提案する。
我々は、観測されていない過去のフレームから発生する監視信号は、将来のフレームから生じるものと相補的であると論じる。
両信号の利用により,下流の行動認識タスクにおいて学習した表現が強化されることを実証的に示す。
論文 参考訳(メタデータ) (2020-11-11T19:42:31Z) - Head2Head++: Deep Facial Attributes Re-Targeting [6.230979482947681]
我々は,顔の3次元形状とGANを利用して,顔と頭部の再現作業のための新しいディープラーニングアーキテクチャを設計する。
駆動単眼動作から複雑な非剛性顔の動きを捉え,時間的に一貫した映像を合成する。
我々のシステムは、ほぼリアルタイムでエンドツーエンドの再現(18fps)を行う。
論文 参考訳(メタデータ) (2020-06-17T23:38:37Z) - Head2Head: Video-based Neural Head Synthesis [50.32988828989691]
顔再現のための新しい機械学習アーキテクチャを提案する。
提案手法は, 顔の表情, ポーズ, 視線を, 最先端の手法よりも正確に写実的な方法で対象映像に転送できることを示す。
論文 参考訳(メタデータ) (2020-05-22T00:44:43Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。