論文の概要: Scaling Structured Inference with Randomization
- arxiv url: http://arxiv.org/abs/2112.03638v1
- Date: Tue, 7 Dec 2021 11:26:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 20:21:36.446082
- Title: Scaling Structured Inference with Randomization
- Title(参考訳): ランダム化による構造化推論のスケーリング
- Authors: Yao Fu and Mirella Lapata
- Abstract要約: 本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
- 参考スコア(独自算出の注目度): 64.18063627155128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scale of the state space of discrete graphical models is crucial for
model capacity in the era of deep learning. Existing dynamic programming (DP)
based inference typically works with a small number of states (usually less
than hundreds). In this work, we propose a family of randomized dynamic
programming (RDP) algorithms for scaling structured models to tens of thousands
of latent states. Our method is widely applicable to classical DP-based
inference (partition, marginal, reparameterization, entropy, .etc) and
different graph structures (chains, trees, and more general hypergraphs). It is
also compatible with automatic differentiation so can be integrated with neural
networks seamlessly and learned with gradient-based optimizers. Our core
technique is randomization, which is to restrict and reweight DP on a small
selected subset of nodes, leading to computation reduction by orders of
magnitudes. We further achieve low bias and variance with Rao-Blackwellization
and importance sampling. Experiments on different inferences over different
graphs demonstrate the accuracy and efficiency of our methods. Furthermore,
when using RDP to train a scaled structured VAE, it outperforms baselines in
terms of test likelihood and successfully prevents posterior collapse.
- Abstract(参考訳): 離散グラフィカルモデルの状態空間のスケールは、ディープラーニングの時代におけるモデルのキャパシティにとって不可欠である。
既存の動的プログラミング(DP)ベースの推論は通常、少数の状態(通常は数百未満)で動作する。
本研究では,構造化モデルを数万の潜在状態に拡張するためのランダム化動的プログラミング(rdp)アルゴリズムのファミリを提案する。
本手法は,従来のdpベース推論 (partition, marginal, reparameterization, entropy, .etc) と異なるグラフ構造 (chains, tree, and more general hypergraphs) に広く適用可能である。
また、自動微分と互換性があるため、ニューラルネットワークとシームレスに統合でき、勾配ベースのオプティマイザで学習することができる。
我々の中心となる手法はランダム化であり、小さな選択されたノードのサブセットでDPを制限・再重み付けすることであり、桁違いの計算の削減につながる。
さらに,Rao-Blackwellizationと重要サンプリングによる低バイアス・分散を実現する。
異なるグラフに対する異なる推論の実験は、我々の手法の精度と効率を示す。
さらに、RDPを用いてスケールした構造化されたVAEを訓練すると、試験可能性の観点からベースラインよりも優れ、後方崩壊の防止に成功している。
関連論文リスト
- Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Probabilistic partition of unity networks: clustering based deep
approximation [0.0]
ユニタリネットワーク(POU-Nets)の分割は、回帰とPDEの解に対する代数収束率を実現することができる。
ガウス雑音モデルを用いてPOU-Netを拡張し、最大可算損失の勾配に基づく一般化を導出できる確率的一般化を得る。
本研究では,高次元・低次元での性能を定量化するためのベンチマークを行い,高次元空間内のデータの潜在次元にのみ依存することを示す。
論文 参考訳(メタデータ) (2021-07-07T08:02:00Z) - A Distributed Optimisation Framework Combining Natural Gradient with
Hessian-Free for Discriminative Sequence Training [16.83036203524611]
本稿では、ニューラルネットワークトレーニングのための自然勾配およびヘッセンフリー(NGHF)最適化フレームワークを提案する。
これは、自然勾配(ng)法とヘッセンフリー(hf)や他の二次法からの局所曲率情報を組み合わせた線形共役勾配(cg)アルゴリズムに依存している。
さまざまな音響モデルタイプのマルチジャンル放送データセットで実験が報告されています。
論文 参考訳(メタデータ) (2021-03-12T22:18:34Z) - Message Passing Descent for Efficient Machine Learning [4.416484585765027]
機械学習におけるbfデータフィッティング(DF)問題に対する反復最適化手法を提案する。
このアプローチは、df問題のbfグラフィカルモデル表現に依存している。
本稿では,モデルDF関数の多項式表現に依存する bf Message Passage Descent アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-16T12:22:54Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Randomized Automatic Differentiation [22.95414996614006]
我々は、ランダム化自動微分(RAD)のための一般的なフレームワークとアプローチを開発する。
RADは、分散の見返りにメモリを減らし、バイアスのない見積もりを計算できる。
本稿では,フィードフォワードネットワークのバッチサイズを小さくし,繰り返しネットワークの場合と同様の回数でRADが収束することを示す。
論文 参考訳(メタデータ) (2020-07-20T19:03:44Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。