論文の概要: VDSM: Unsupervised Video Disentanglement with State-Space Modeling and
Deep Mixtures of Experts
- arxiv url: http://arxiv.org/abs/2103.07292v1
- Date: Fri, 12 Mar 2021 14:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:30:44.918295
- Title: VDSM: Unsupervised Video Disentanglement with State-Space Modeling and
Deep Mixtures of Experts
- Title(参考訳): VDSM: 状態空間モデリングとエキスパートの深層混合による教師なしビデオディスタングル
- Authors: Matthew J. Vowels, Necati Cihan Camgoz and Richard Bowden
- Abstract要約: VDSM (Unsupervised, Deep State-Space-Model for Video Disentanglement) を提案する。
モデルは、動的先行とエキスパートデコーダの混合と階層構造を組み込むことによって、潜時変動と動的要因を解き放つ。
VDSMは、ビデオ中のオブジェクトまたは人のアイデンティティと、実行中のアクションに対する分離された不整合表現を学習する。
- 参考スコア(独自算出の注目度): 37.03455364275332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disentangled representations support a range of downstream tasks including
causal reasoning, generative modeling, and fair machine learning.
Unfortunately, disentanglement has been shown to be impossible without the
incorporation of supervision or inductive bias. Given that supervision is often
expensive or infeasible to acquire, we choose to incorporate structural
inductive bias and present an unsupervised, deep State-Space-Model for Video
Disentanglement (VDSM). The model disentangles latent time-varying and dynamic
factors via the incorporation of hierarchical structure with a dynamic prior
and a Mixture of Experts decoder. VDSM learns separate disentangled
representations for the identity of the object or person in the video, and for
the action being performed. We evaluate VDSM across a range of qualitative and
quantitative tasks including identity and dynamics transfer, sequence
generation, Fr\'echet Inception Distance, and factor classification. VDSM
provides state-of-the-art performance and exceeds adversarial methods, even
when the methods use additional supervision.
- Abstract(参考訳): 絡み合った表現は、因果推論、生成モデリング、公平な機械学習など、下流タスクの範囲をサポートする。
残念なことに、混乱は監督や帰納的偏見を取り入れずには不可能であることが示されている。
監視は、しばしばコストがかかるか、取得できないことを考えると、構造的帰納バイアスを取り入れ、教師なしの深いビデオディスタングルのための状態空間モデル(VDSM)を提示する。
モデルは、動的先行とエキスパートデコーダの混合と階層構造を組み込むことによって、潜時変動と動的要因を解き放つ。
VDSMは、ビデオ中のオブジェクトまたは人のアイデンティティと、実行中のアクションに対する分離された不整合表現を学習する。
我々はvdsmを,アイデンティティやダイナミクスの伝達,シーケンス生成,fr\'echetインセプション距離,因子分類など,質的かつ定量的なタスクで評価する。
VDSMは最先端のパフォーマンスを提供し、メソッドが追加の監視を使用する場合でも、敵メソッドを超える。
関連論文リスト
- Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Coupled and Uncoupled Dynamic Mode Decomposition in Multi-Compartmental
Systems with Applications to Epidemiological and Additive Manufacturing
Problems [58.720142291102135]
非線形問題に適用した場合,動的分解(DMD)は強力なツールである可能性が示唆された。
特に,Covid-19に対する連続遅延SIRDモデルに対する興味深い数値的応用を示す。
論文 参考訳(メタデータ) (2021-10-12T21:42:14Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Detecting Human-Object Interaction with Mixed Supervision [0.0]
人間の物体の相互作用(HOI)検出は、画像の理解と推論において重要な課題である。
本稿では,モーメント非依存学習の特定の設計のおかげで,混合教師付きHOI検出パイプラインを提案する。
本手法は,挑戦的なHICO-DETデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-10T08:42:31Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。