論文の概要: $\beta$-Multivariational Autoencoder for Entangled Representation
Learning in Video Frames
- arxiv url: http://arxiv.org/abs/2211.12627v1
- Date: Tue, 22 Nov 2022 23:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:17:29.955591
- Title: $\beta$-Multivariational Autoencoder for Entangled Representation
Learning in Video Frames
- Title(参考訳): ビデオフレームにおける絡み合った表現学習のための$\beta$-Multivariational Autoencoder
- Authors: Fatemeh Nouri, Robert Bergevin
- Abstract要約: そこで本研究では,オブジェクト追跡タスクに対処するためのパラメータセットをセットとして,動画におけるオブジェクトの動きの新たな定式化を提案する。
$beta$MVAEは、フレームパッチから直接$p = N(mu, Sigma)$を学習するために開発された。
私たちのネットワークは、ビデオフレームを85万フレーム以上($MVUnet)と78万ステップ($MVAE)でゼロからトレーニングされています。
- 参考スコア(独自算出の注目度): 1.802128767754695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is crucial to choose actions from an appropriate distribution while
learning a sequential decision-making process in which a set of actions is
expected given the states and previous reward. Yet, if there are more than two
latent variables and every two variables have a covariance value, learning a
known prior from data becomes challenging. Because when the data are big and
diverse, many posterior estimate methods experience posterior collapse. In this
paper, we propose the $\beta$-Multivariational Autoencoder ($\beta$MVAE) to
learn a Multivariate Gaussian prior from video frames for use as part of a
single object-tracking in form of a decision-making process. We present a novel
formulation for object motion in videos with a set of dependent parameters to
address a single object-tracking task. The true values of the motion parameters
are obtained through data analysis on the training set. The parameters
population is then assumed to have a Multivariate Gaussian distribution. The
$\beta$MVAE is developed to learn this entangled prior $p = N(\mu, \Sigma)$
directly from frame patches where the output is the object masks of the frame
patches. We devise a bottleneck to estimate the posterior's parameters, i.e.
$\mu', \Sigma'$. Via a new reparameterization trick, we learn the likelihood
$p(\hat{x}|z)$ as the object mask of the input. Furthermore, we alter the
neural network of $\beta$MVAE with the U-Net architecture and name the new
network $\beta$Multivariational U-Net ($\beta$MVUnet). Our networks are trained
from scratch via over 85k video frames for 24 ($\beta$MVUnet) and 78
($\beta$MVAE) million steps. We show that $\beta$MVUnet enhances both posterior
estimation and segmentation functioning over the test set. Our code and the
trained networks are publicly released.
- Abstract(参考訳): 状態や過去の報酬から一連の行動が期待されるシーケンシャルな意思決定過程を学習しながら、適切な分布から行動を選択することが重要である。
しかし、2つ以上の潜在変数があり、2つの変数が共分散値を持つ場合、データから既知の事前学習が困難になる。
データが巨大で多様である場合、多くの後方推定手法が後方崩壊を経験する。
本稿では,ビデオフレームから多変量ガウスを学習し,意思決定プロセスの一環として,単一のオブジェクト追跡の一部として使用するための$\beta$-Multivariational Autoencoder(\beta$MVAE)を提案する。
本稿では,単一のオブジェクト追跡タスクに対処するためのパラメータ群を持つビデオにおける物体の動きに関する新しい定式化について述べる。
トレーニングセットのデータ解析により、運動パラメータの真の値を求める。
パラメータ群は多変量ガウス分布を持つと仮定される。
p = n(\mu, \sigma)$ は、出力がフレームパッチのオブジェクトマスクであるフレームパッチから直接学習するために開発された。
我々は後方のパラメータ、すなわち$\mu', \sigma'$を推定するためにボトルネックを考案する。
新たなパラメータ化トリックにより、入力のオブジェクトマスクとして$p(\hat{x}|z)$の確率を学習する。
さらに、U-Netアーキテクチャで$\beta$MVAEのニューラルネットワークを変更し、新しいネットワーク$\beta$Multivariational U-Net($\beta$MVUnet)と名付ける。
私たちのネットワークは、85万以上のビデオフレームから、24($\beta$mvunet)と78($\beta$mvae)のステップでスクラッチからトレーニングされています。
テストセット上での後方推定とセグメンテーション機能の両方を強化することを,$\beta$MVUnetで示す。
私たちのコードとトレーニング済みのネットワークは公開されています。
関連論文リスト
- A Statistical Analysis of Deep Federated Learning for Intrinsically Low-dimensional Data [32.98264375121064]
Federated Learning (FL)は、協調機械学習における画期的なパラダイムとして登場した。
本稿では,2段階サンプリングモデルにおけるディープフェデレート回帰の一般化特性について検討する。
論文 参考訳(メタデータ) (2024-10-28T01:36:25Z) - The Optimization Landscape of SGD Across the Feature Learning Strength [102.1353410293931]
オンライントレーニング環境で、さまざまなモデルやデータセットに$gamma$をスケーリングする効果について検討する。
最適なオンラインパフォーマンスは、しばしば大きな$gamma$で見られます。
以上の結果から,大容量ガンマ$限界の解析的研究は,実演モデルにおける表現学習のダイナミクスに関する有用な知見をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-06T22:30:14Z) - Transfer Learning for Latent Variable Network Models [18.31057192626801]
潜在変数ネットワークモデルにおける推定のための伝達学習について検討する。
潜伏変数が共有されている場合、エラーの消滅が可能であることを示す。
我々のアルゴリズムは、$o(1)$エラーを達成し、ソースやターゲットネットワーク上でパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2024-06-05T16:33:30Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Low PAPR MIMO-OFDM Design Based on Convolutional Autoencoder [20.544993155126967]
ピーク対平均電力比(mathsfPAPR$)削減と波形設計のための新しい枠組みを提案する。
畳み込みオートコーダ(mathsfCAE$)アーキテクチャが提示される。
1つのトレーニングされたモデルが、幅広いSNRレベルにわたって、$mathsfPAPR$の削減、スペクトル設計、および$mathsfMIMO$の検出のタスクをカバーしていることを示す。
論文 参考訳(メタデータ) (2023-01-11T11:35:10Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - Weighted-average quantile regression [1.0742675209112622]
重み付き平均量子化回帰フレームワークである$int_Y|X(u)psi(u)du = X'beta$を導入する。
我々はパラメータのベクトルを$beta$で推定し、$T$は利用可能なサンプルのサイズである。
論文 参考訳(メタデータ) (2022-03-06T19:06:53Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。