論文の概要: Generative Forests
- arxiv url: http://arxiv.org/abs/2308.03648v1
- Date: Mon, 7 Aug 2023 14:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:16:08.985791
- Title: Generative Forests
- Title(参考訳): 生成林
- Authors: Richard Nock and Mathieu Guillame-Bert
- Abstract要約: 我々は密度モデリングやデータ生成に便利な木に基づく新しい生成モデルを提案する。
また、従来のアプローチのトレーニング設定を簡単にするトレーニングアルゴリズムも導入する。
欠落したデータ計算と生成したデータと実際のデータを比較して、結果の品質を示す実験が提供されている。
- 参考スコア(独自算出の注目度): 26.09279398946235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data represents one of the most prevalent form of data. When it comes
to data generation, many approaches would learn a density for the data
generation process, but would not necessarily end up with a sampler, even less
so being exact with respect to the underlying density. A second issue is on
models: while complex modeling based on neural nets thrives in image or text
generation (etc.), less is known for powerful generative models on tabular
data. A third problem is the visible chasm on tabular data between training
algorithms for supervised learning with remarkable properties (e.g. boosting),
and a comparative lack of guarantees when it comes to data generation. In this
paper, we tackle the three problems, introducing new tree-based generative
models convenient for density modeling and tabular data generation that improve
on modeling capabilities of recent proposals, and a training algorithm which
simplifies the training setting of previous approaches and displays
boosting-compliant convergence. This algorithm has the convenient property to
rely on a supervised training scheme that can be implemented by a few tweaks to
the most popular induction scheme for decision tree induction with two classes.
Experiments are provided on missing data imputation and comparing generated
data to real data, displaying the quality of the results obtained by our
approach, in particular against state of the art.
- Abstract(参考訳): タブラルデータは最も一般的な形式のデータの一つである。
データ生成に関しては、多くのアプローチがデータ生成プロセスの密度を学習するが、必ずしもサンプラーになるとは限らない。
ニューラルネットに基づく複雑なモデリングは画像やテキスト生成(etc)で繁栄するが、表データによる強力な生成モデルではlessが知られている。
第3の問題は、顕著な特性(例えば、ブースティング)を持つ教師付き学習のためのトレーニングアルゴリズムと、データ生成に関する保証の欠如の間の、表データの可視性である。
本稿では,最近の提案のモデリング能力を向上させるために,密度モデリングや表データ生成に便利な新しい木ベース生成モデルを導入するとともに,先行手法のトレーニング設定を簡略化し,拡張対応収束を表示するトレーニングアルゴリズムを提案する。
このアルゴリズムは、2つのクラスによる決定木帰納法の最も一般的な誘導スキームに少し手を加えることで実装できる教師付きトレーニングスキームに依存するのに便利である。
不足したデータ計算と生成したデータを実データと比較し,提案手法による結果の品質,特に最先端技術に対する結果を示す実験を行った。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Data Selection: A General Principle for Building Small Interpretable Models [0.0]
精度の高い小型モデルを構築するための効果的で一般的な戦略を示す実証的な証拠を提示する。
本稿では,クラスター説明木の構築,(2)プロトタイプに基づく分類,(3)ランダムフォレストを用いた分類の課題に適用する。
ランダムフォレストを含む最終作業では、モデルサイズが木の数と最大深さの2つ以上の要素からなる場合であっても、この戦略が有効であることが示されている。
論文 参考訳(メタデータ) (2022-10-08T05:16:49Z) - Smooth densities and generative modeling with unsupervised random
forests [1.433758865948252]
密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
論文 参考訳(メタデータ) (2022-05-19T09:50:25Z) - Multi network InfoMax: A pre-training method involving graph
convolutional networks [0.0]
本稿では,グラフ畳み込み/ニューラルネットワーク(GCN/GNN)を含む事前学習手法を提案する。
学習された高レベルグラフ潜在表現は、下流グラフ分類タスクのパフォーマンス向上に役立つ。
我々は、被験者を健康管理群(HC)と統合失調症群(SZ)に分類するための神経画像データセットに適用した。
論文 参考訳(メタデータ) (2021-11-01T21:53:20Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。