論文の概要: Machine Learning Techniques to Construct Patched Analog Ensembles for
Data Assimilation
- arxiv url: http://arxiv.org/abs/2103.00318v1
- Date: Sat, 27 Feb 2021 20:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 15:47:23.945911
- Title: Machine Learning Techniques to Construct Patched Analog Ensembles for
Data Assimilation
- Title(参考訳): データ同化のためのパッチ付きアナログアンサンブル構築のための機械学習手法
- Authors: Lucia Minah Yang and Ian Grooms
- Abstract要約: 本稿では,cAnEnOIの機械学習コンポーネントに対する一般および変分オートエンコーダについて検討する。
グローバル空間領域を消化可能なチャンクに分割するパッチ法を提案する。
この新しいアルゴリズムを1Dトイモデルでテストすると、より大きなパッチサイズにより、正確な生成モデルのトレーニングが困難になることがわかります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using generative models from the machine learning literature to create
artificial ensemble members for use within data assimilation schemes has been
introduced in [Grooms QJRMS, 2020] as constructed analog ensemble optimal
interpolation (cAnEnOI). Specifically, we study general and variational
autoencoders for the machine learning component of this method, and combine the
ideas of constructed analogs and ensemble optimal interpolation in the data
assimilation piece. To extend the scalability of cAnEnOI for use in data
assimilation on complex dynamical models, we propose using patching schemes to
divide the global spatial domain into digestible chunks. Using patches makes
training the generative models possible and has the added benefit of being able
to exploit parallelism during the generative step. Testing this new algorithm
on a 1D toy model, we find that larger patch sizes make it harder to train an
accurate generative model (i.e. a model whose reconstruction error is small),
while conversely the data assimilation performance improves at larger patch
sizes. There is thus a sweet spot where the patch size is large enough to
enable good data assimilation performance, but not so large that it becomes
difficult to train an accurate generative model. In our tests the new patched
cAnEnOI method outperforms the original (unpatched) cAnEnOI, as well as the
ensemble square root filter results from [Grooms QJRMS, 2020].
- Abstract(参考訳): 構築されたアナログアンサンブル最適補間法(cAnEnOI)として,機械学習文献からの生成モデルを用いて,データ同化方式で使用する人工アンサンブル部材を[Grooms QJRMS, 2020]に導入した。
具体的には,本手法の機械学習コンポーネントの一般および変分オートエンコーダについて検討し,構築されたアナログのアイデアとデータ同化片における最適な補間を組み合わせる。
複雑な力学モデル上でのデータ同化に用いるcAnEnOIのスケーラビリティを拡張するために,グローバル空間領域を消化可能なチャンクに分割するパッチ方式を提案する。
パッチを使用することで、生成モデルのトレーニングが可能になり、生成ステップ中に並列性を活用できるメリットが追加される。
この新しいアルゴリズムを1Dトイモデルでテストすると、より大きなパッチサイズが正確な生成モデルの訓練を難しくすることがわかった。
再構成誤差が小さいモデル)、逆に、より大きなパッチサイズでデータ同化性能が向上します。
したがって、パッチサイズが十分に大きいスイートスポットがあり、良好なデータ同化性能を実現できますが、正確な生成モデルのトレーニングが困難になるほど大きくはありません。
私たちのテストでは、新しいパッチ付きcAnEnOIメソッドは、元の(未パッチ)cAnEnOIと[Grooms QJRMS, 2020]からのアンサンブルスクエアルートフィルタ結果よりも優れています。
関連論文リスト
- Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Flag Aggregator: Scalable Distributed Training under Failures and
Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。
計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。
これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。
この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-02-12T06:38:30Z) - An Information-Theoretic Analysis of Compute-Optimal Neural Scaling Laws [24.356906682593532]
大規模ニューラルネットワークにおけるモデルとトレーニングデータセットサイズ間の計算-最適トレードオフについて検討する。
以上の結果から, チンチラの実証分析で裏付けられる線形関係が示唆された。
論文 参考訳(メタデータ) (2022-12-02T18:46:41Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - RealPatch: A Statistical Matching Framework for Model Patching with Real
Samples [6.245453620070586]
RealPatchは、統計マッチングに基づいた、よりシンプルで、より高速で、よりデータ効率の高いデータ拡張のためのフレームワークである。
この結果から,RealPatchは,モデルリークを低減し,高ユーティリティを維持するとともに,データセットリークを効果的に除去できることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T16:22:30Z) - A Hybrid Framework for Sequential Data Prediction with End-to-End
Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。
逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。
本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文 参考訳(メタデータ) (2022-03-25T17:13:08Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。