論文の概要: Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference
- arxiv url: http://arxiv.org/abs/2006.14727v1
- Date: Thu, 25 Jun 2020 22:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:31:12.711968
- Title: Unsupervised Video Decomposition using Spatio-temporal Iterative
Inference
- Title(参考訳): 時空間反復推論を用いた教師なしビデオ分解
- Authors: Polina Zablotskaia, Edoardo A. Dominici, Leonid Sigal, Andreas M.
Lehrmann
- Abstract要約: マルチオブジェクトシーンの分解は、学習において急速に進化する問題である。
色情報のないモデルでも精度が高いことを示す。
本稿では, モデルの分解, セグメント化予測能力を実証し, いくつかのベンチマークデータセットにおいて, 最先端のモデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 31.97227651679233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised multi-object scene decomposition is a fast-emerging problem in
representation learning. Despite significant progress in static scenes, such
models are unable to leverage important dynamic cues present in video. We
propose a novel spatio-temporal iterative inference framework that is powerful
enough to jointly model complex multi-object representations and explicit
temporal dependencies between latent variables across frames. This is achieved
by leveraging 2D-LSTM, temporally conditioned inference and generation within
the iterative amortized inference for posterior refinement. Our method improves
the overall quality of decompositions, encodes information about the objects'
dynamics, and can be used to predict trajectories of each object separately.
Additionally, we show that our model has a high accuracy even without color
information. We demonstrate the decomposition, segmentation, and prediction
capabilities of our model and show that it outperforms the state-of-the-art on
several benchmark datasets, one of which was curated for this work and will be
made publicly available.
- Abstract(参考訳): 教師なしマルチオブジェクトシーン分解は、表現学習の高速化問題である。
静的シーンの大幅な進歩にもかかわらず、このようなモデルはビデオに現れる重要なダイナミックな手がかりを活用できない。
本稿では,複雑な多対象表現と,フレーム間の潜在変数間の明示的な時間的依存関係をモデル化するのに十分な,新しい時空間反復推論フレームワークを提案する。
これは、2D-LSTM、時間的条件付き推論と生成を反復的償却推論に活用することで達成される。
本手法は分解の全体的な品質を改善し,オブジェクトのダイナミクスに関する情報をエンコードし,各オブジェクトの軌跡を別々に予測する。
さらに,色情報のないモデルでも精度が高いことを示す。
モデルの分解、セグメンテーション、予測機能を実証し、いくつかのベンチマークデータセットの最先端を上回っており、そのうちの1つはこの作業のためにキュレートされ、公開される予定だ。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos [5.258814754543826]
本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。
汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。
提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2023-11-20T10:53:59Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Learning to Reconstruct Missing Data from Spatiotemporal Graphs with
Sparse Observations [11.486068333583216]
本稿では、欠落したデータポイントを再構築するための効果的なモデル学習の課題に取り組む。
我々は,高度にスパースな観測値の集合を与えられた注意に基づくアーキテクチャのクラスを提案し,時間と空間における点の表現を学習する。
技術状況と比較して、我々のモデルは予測エラーを伝播したり、前方および後方の時間依存性をエンコードするために双方向モデルを必要とすることなくスパースデータを処理します。
論文 参考訳(メタデータ) (2022-05-26T16:40:48Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Recur, Attend or Convolve? Frame Dependency Modeling Matters for
Cross-Domain Robustness in Action Recognition [0.5448283690603357]
従来,2次元畳み込みニューラルネットワーク(CNN)は,コンピュータビジョンタスクの形状よりもテクスチャに偏っている傾向があった。
これは、大きなビデオモデルが時間の経過とともに関連した形状を追跡するのではなく、急激な相関関係を学習しているという疑いを提起する。
本研究では, フレーム依存性のモデリングによって, 連続的, 注意的, 畳み込み的ビデオモデルに対するドメイン間ロバスト性について検討した。
論文 参考訳(メタデータ) (2021-12-22T19:11:53Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Interpretable Deep Representation Learning from Temporal Multi-view Data [4.2179426073904995]
変動型オートエンコーダとリカレントニューラルネットワークに基づく生成モデルを提案し,多視点時間データに対する潜時ダイナミクスを推定する。
提案モデルを用いて,モデルの有効性と解釈可能性を示す3つのデータセットを解析する。
論文 参考訳(メタデータ) (2020-05-11T15:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。