論文の概要: Generative Forests
- arxiv url: http://arxiv.org/abs/2308.03648v1
- Date: Mon, 7 Aug 2023 14:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:16:08.985791
- Title: Generative Forests
- Title(参考訳): 生成林
- Authors: Richard Nock and Mathieu Guillame-Bert
- Abstract要約: 我々は密度モデリングやデータ生成に便利な木に基づく新しい生成モデルを提案する。
また、従来のアプローチのトレーニング設定を簡単にするトレーニングアルゴリズムも導入する。
欠落したデータ計算と生成したデータと実際のデータを比較して、結果の品質を示す実験が提供されている。
- 参考スコア(独自算出の注目度): 26.09279398946235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data represents one of the most prevalent form of data. When it comes
to data generation, many approaches would learn a density for the data
generation process, but would not necessarily end up with a sampler, even less
so being exact with respect to the underlying density. A second issue is on
models: while complex modeling based on neural nets thrives in image or text
generation (etc.), less is known for powerful generative models on tabular
data. A third problem is the visible chasm on tabular data between training
algorithms for supervised learning with remarkable properties (e.g. boosting),
and a comparative lack of guarantees when it comes to data generation. In this
paper, we tackle the three problems, introducing new tree-based generative
models convenient for density modeling and tabular data generation that improve
on modeling capabilities of recent proposals, and a training algorithm which
simplifies the training setting of previous approaches and displays
boosting-compliant convergence. This algorithm has the convenient property to
rely on a supervised training scheme that can be implemented by a few tweaks to
the most popular induction scheme for decision tree induction with two classes.
Experiments are provided on missing data imputation and comparing generated
data to real data, displaying the quality of the results obtained by our
approach, in particular against state of the art.
- Abstract(参考訳): タブラルデータは最も一般的な形式のデータの一つである。
データ生成に関しては、多くのアプローチがデータ生成プロセスの密度を学習するが、必ずしもサンプラーになるとは限らない。
ニューラルネットに基づく複雑なモデリングは画像やテキスト生成(etc)で繁栄するが、表データによる強力な生成モデルではlessが知られている。
第3の問題は、顕著な特性(例えば、ブースティング)を持つ教師付き学習のためのトレーニングアルゴリズムと、データ生成に関する保証の欠如の間の、表データの可視性である。
本稿では,最近の提案のモデリング能力を向上させるために,密度モデリングや表データ生成に便利な新しい木ベース生成モデルを導入するとともに,先行手法のトレーニング設定を簡略化し,拡張対応収束を表示するトレーニングアルゴリズムを提案する。
このアルゴリズムは、2つのクラスによる決定木帰納法の最も一般的な誘導スキームに少し手を加えることで実装できる教師付きトレーニングスキームに依存するのに便利である。
不足したデータ計算と生成したデータを実データと比較し,提案手法による結果の品質,特に最先端技術に対する結果を示す実験を行った。
関連論文リスト
- Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Leveraging Key Information Modeling to Improve Less-Data Constrained
News Headline Generation via Duality Fine-Tuning [12.443476695459553]
本稿では,鍵情報予測と見出し生成タスクの確率的双対性制約を定式化することにより,新しい双対性微調整法を提案する。
提案手法は、限られたデータからより多くの情報をキャプチャし、別々のタスク間の接続を構築することができ、データ制約の少ない生成タスクに適している。
提案手法は,2つの公開データセット上で,言語モデリングの指標と情報量補正の指標を用いて,性能向上に有効かつ効果的であることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-10T07:59:36Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Generative Trees: Adversarial and Copycat [26.09279398946235]
我々は、DT誘導のための教師付きタスクの最高のコンポーネントについての数十年前からの理解を活用している。
木に基づく生成モデル, テクスト生成木(GT)を紹介する。
我々は、フェイク/現実の区別、フェイクデータからのトレーニング、欠落データ計算などのタスクでアルゴリズムをテストする。
論文 参考訳(メタデータ) (2022-01-26T22:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。