Fugu-MT 論文翻訳(概要): Tighter Variational Bounds are Not Necessarily Better. A Research Report on Implementation, Ablation Study, and Extensions

論文の概要: Tighter Variational Bounds are Not Necessarily Better. A Research Report on Implementation, Ablation Study, and Extensions

arxiv url: http://arxiv.org/abs/2209.11875v1
Date: Fri, 23 Sep 2022 21:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 15:22:08.982968
Title: Tighter Variational Bounds are Not Necessarily Better. A Research Report on Implementation, Ablation Study, and Extensions
Title（参考訳）: タイターなバリエーション境界は必要以上に良くない。実装, アブレーション研究, 拡張に関する調査報告
Authors: Amine M'Charrak, V\'it R\r{u}\v{z}i\v{c}ka, Sangyun Shin, Madhu Vankadari
Abstract要約: 本報告では,「Tighter Variational Bounds is Not Necessarily Better」で提示された作品について解説し,実装し,拡張する。重み付きオートエンコーダ(IWAE)における重要サンプル数$K$の増加は、推論ネットワークにおける勾配推定器の信号-雑音比(SNR)を低下させるという理論的および実証的な証拠を提供する。
参考スコア（独自算出の注目度）: 3.899824115379246
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This report explains, implements and extends the works presented in "Tighter Variational Bounds are Not Necessarily Better" (T Rainforth et al., 2018). We provide theoretical and empirical evidence that increasing the number of importance samples $K$ in the importance weighted autoencoder (IWAE) (Burda et al., 2016) degrades the signal-to-noise ratio (SNR) of the gradient estimator in the inference network and thereby affecting the full learning process. In other words, even though increasing $K$ decreases the standard deviation of the gradients, it also reduces the magnitude of the true gradient faster, thereby increasing the relative variance of the gradient updates. Extensive experiments are performed to understand the importance of $K$. These experiments suggest that tighter variational bounds are beneficial for the generative network, whereas looser bounds are preferable for the inference network. With these insights, three methods are implemented and studied: the partially importance weighted autoencoder (PIWAE), the multiply importance weighted autoencoder (MIWAE) and the combination importance weighted autoencoder (CIWAE). Each of these three methods entails IWAE as a special case but employs the importance weights in different ways to ensure a higher SNR of the gradient estimators. In our research study and analysis, the efficacy of these algorithms is tested on multiple datasets such as MNIST and Omniglot. Finally, we demonstrate that the three presented IWAE variations are able to generate approximate posterior distributions that are much closer to the true posterior distribution than for the IWAE, while matching the performance of the IWAE generative network or potentially outperforming it in the case of PIWAE.
Abstract（参考訳）: 本報告は, "tighter variational bounds are not better" (t rainforth et al., 2018) で示された作品を解説し,実装し,拡張する。重要重み付きオートエンコーダ(Burda et al., 2016)における重要サンプル数$K$の増加は、推定ネットワークにおける勾配推定器の信号-雑音比(SNR)を低下させ、完全な学習プロセスに影響を与えるという理論的および実証的な証拠を提供する。言い換えると、k$の増加は勾配の標準偏差を減少させるが、真の勾配の大きさを速くし、勾配更新の相対的ばらつきを増加させる。大規模な実験は、K$の重要性を理解するために行われる。これらの実験は、より強固な変分境界が生成ネットワークに有益であることを示唆しているが、一方、ゆるい境界は推論ネットワークに好ましい。これらの知見により、部分重み付きオートエンコーダ(PIWAE)、乗算重み付きオートエンコーダ(MIWAE)、重み付きオートエンコーダ(CIWAE)の3つの手法が実装され研究されている。これらの3つの手法はそれぞれ、IWAEを特別なケースとして含むが、勾配推定器のより高いSNRを保証するために、異なる方法で重要な重みを用いる。本研究および分析では,MNISTやOmniglotなどの複数のデータセットに対して,これらのアルゴリズムの有効性を検証した。最後に,提案する3つの変種は,岩絵生成ネットワークの性能にマッチするか,あるいはピワエの場合よりも優れている可能性があるにもかかわらず,岩絵の真の後続分布に非常に近い近似後続分布を生成できることを実証した。

関連論文リスト

Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Multiplicative Learning [0.04499833362998487]
本研究では,予測出力に対する観測値の比率に基づいて重みを乗算的に更新する新しい学習手法である期待反射(ER)を導入する。 ERを多層ネットワークに拡張し、画像分類タスクの実行の有効性を示す。
論文参考訳（メタデータ） (2025-03-13T08:14:00Z)
$α$-TCVAE: On the relationship between Disentanglement and Diversity [21.811889512977924]
本稿では,新しい全相関(TC)下界を用いて最適化された変分オートエンコーダである$alpha$-TCVAEを紹介する。本稿では,不整合表現がより優れた生成能力と多様性をもたらすという考えを支持する定量的分析について述べる。以上の結果から,$alpha$-TCVAEはベースラインよりも不整合表現を一貫して学習し,より多様な観測結果を生成することが示された。
論文参考訳（メタデータ） (2024-11-01T13:50:06Z)
PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文参考訳（メタデータ） (2024-09-25T17:56:00Z)
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文参考訳（メタデータ） (2021-10-24T07:58:13Z)
PEP: Parameter Ensembling by Perturbation [13.221295194854642]
摂動(PEP)は、トレーニングから設定された最適パラメータのランダム摂動としてパラメータ値のアンサンブルを構成する。 PEPは性能を少し改善し、場合によっては経験的キャリブレーションを大幅に改善する。 PEPは、トレーニング中に発生したオーバーフィッティングのレベルを調査するために使用することができる。
論文参考訳（メタデータ） (2020-10-24T00:16:03Z)
Optimal Variance Control of the Score Function Gradient Estimator for Importance Weighted Bounds [12.75471887147565]
本稿では,重要重み付き変動境界(IWAE)のスコア関数勾配推定器の新しい結果を紹介する。我々は、大きな$K$の極限において、推定子のSignal-to-Noise比(SNR)が$sqrtK$として大きくなるように制御変数を選択することができることを証明した。
論文参考訳（メタデータ） (2020-08-05T08:41:46Z)
Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。 FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。 MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文参考訳（メタデータ） (2020-07-18T09:48:29Z)
Unbiased Risk Estimators Can Mislead: A Case Study of Learning with Complementary Labels [92.98756432746482]
我々は,補完ラベルを用いた学習という,弱教師付き問題を研究する。勾配推定の品質はリスク最小化においてより重要であることを示す。本稿では,ゼロバイアスと分散の低減を両立させる新しい補助的相補的損失(SCL)フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-05T04:19:37Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)
Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文参考訳（メタデータ） (2020-04-11T03:50:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。