Fugu-MT 論文翻訳(概要): VDSM: Unsupervised Video Disentanglement with State-Space Modeling and Deep Mixtures of Experts

論文の概要: VDSM: Unsupervised Video Disentanglement with State-Space Modeling and Deep Mixtures of Experts

arxiv url: http://arxiv.org/abs/2103.07292v1
Date: Fri, 12 Mar 2021 14:05:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-15 13:30:44.918295
Title: VDSM: Unsupervised Video Disentanglement with State-Space Modeling and Deep Mixtures of Experts
Title（参考訳）: VDSM: 状態空間モデリングとエキスパートの深層混合による教師なしビデオディスタングル
Authors: Matthew J. Vowels, Necati Cihan Camgoz and Richard Bowden
Abstract要約: VDSM (Unsupervised, Deep State-Space-Model for Video Disentanglement) を提案する。モデルは、動的先行とエキスパートデコーダの混合と階層構造を組み込むことによって、潜時変動と動的要因を解き放つ。 VDSMは、ビデオ中のオブジェクトまたは人のアイデンティティと、実行中のアクションに対する分離された不整合表現を学習する。
参考スコア（独自算出の注目度）: 37.03455364275332
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Disentangled representations support a range of downstream tasks including causal reasoning, generative modeling, and fair machine learning. Unfortunately, disentanglement has been shown to be impossible without the incorporation of supervision or inductive bias. Given that supervision is often expensive or infeasible to acquire, we choose to incorporate structural inductive bias and present an unsupervised, deep State-Space-Model for Video Disentanglement (VDSM). The model disentangles latent time-varying and dynamic factors via the incorporation of hierarchical structure with a dynamic prior and a Mixture of Experts decoder. VDSM learns separate disentangled representations for the identity of the object or person in the video, and for the action being performed. We evaluate VDSM across a range of qualitative and quantitative tasks including identity and dynamics transfer, sequence generation, Fr\'echet Inception Distance, and factor classification. VDSM provides state-of-the-art performance and exceeds adversarial methods, even when the methods use additional supervision.
Abstract（参考訳）: 絡み合った表現は、因果推論、生成モデリング、公平な機械学習など、下流タスクの範囲をサポートする。残念なことに、混乱は監督や帰納的偏見を取り入れずには不可能であることが示されている。監視は、しばしばコストがかかるか、取得できないことを考えると、構造的帰納バイアスを取り入れ、教師なしの深いビデオディスタングルのための状態空間モデル(VDSM)を提示する。モデルは、動的先行とエキスパートデコーダの混合と階層構造を組み込むことによって、潜時変動と動的要因を解き放つ。 VDSMは、ビデオ中のオブジェクトまたは人のアイデンティティと、実行中のアクションに対する分離された不整合表現を学習する。我々はvdsmを,アイデンティティやダイナミクスの伝達,シーケンス生成,fr\'echetインセプション距離,因子分類など,質的かつ定量的なタスクで評価する。 VDSMは最先端のパフォーマンスを提供し、メソッドが追加の監視を使用する場合でも、敵メソッドを超える。

関連論文リスト

Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
AMAD: AutoMasked Attention for Unsupervised Multivariate Time Series Anomaly Detection [0.7371521417300614]
AMADはUMTStextbfADシナリオに対するtextbfAutotextbfMasked Attentionを統合している。 AMADはUMTSADの課題に対して堅牢で適応可能なソリューションを提供する。
論文参考訳（メタデータ） (2025-04-09T07:32:59Z)
Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。表現工学は、新しい、トレーニングなしのアプローチを提供する。この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文参考訳（メタデータ） (2024-11-04T08:36:03Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文参考訳（メタデータ） (2024-06-13T17:59:44Z)
Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文参考訳（メタデータ） (2023-02-16T15:21:46Z)
Unsupervised Video Domain Adaptation for Action Recognition: A Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。 TranSVAEフレームワークはそのような世代をモデル化するために開発される。 UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文参考訳（メタデータ） (2022-08-15T17:59:31Z)
Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文参考訳（メタデータ） (2021-08-30T02:53:08Z)
Is Disentanglement enough? On Latent Representations for Controllable Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。 VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文参考訳（メタデータ） (2021-08-01T18:37:43Z)
Kinematic-Structure-Preserved Representation for Unsupervised 3D Human Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文参考訳（メタデータ） (2020-06-24T23:56:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。