論文の概要: Synthetic Dataset Generation with Itemset-Based Generative Models
- arxiv url: http://arxiv.org/abs/2007.06300v1
- Date: Mon, 13 Jul 2020 10:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:24:50.587477
- Title: Synthetic Dataset Generation with Itemset-Based Generative Models
- Title(参考訳): 項目集合に基づく生成モデルを用いた合成データセット生成
- Authors: Christian Lezcano, Marta Arias
- Abstract要約: 本稿では,既存のアイテムセットベース生成モデルに基づいて,トランザクションデータセットに適した3つのデータジェネレータを提案する。
これらのジェネレータはすべて直感的で実装が容易で、良好なパフォーマンスを示している。
各ジェネレータの品質は、元のデータセット構造がどれだけよく保存されているかをキャプチャする3つの異なる方法によって評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes three different data generators, tailored to
transactional datasets, based on existing itemset-based generative models. All
these generators are intuitive and easy to implement and show satisfactory
performance. The quality of each generator is assessed by means of three
different methods that capture how well the original dataset structure is
preserved.
- Abstract(参考訳): 本稿では,既存のアイテムセットに基づく生成モデルに基づいて,トランザクショナルデータセットに合わせた3つのデータジェネレータを提案する。
これらのジェネレータはすべて直感的で実装が容易で、良好なパフォーマンスを示している。
各ジェネレータの品質は、元のデータセット構造がどれだけよく保存されているかをキャプチャする3つの異なる方法によって評価される。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Personalized Federated Learning via Active Sampling [50.456464838807115]
本稿では,類似した(あるいは関連する)データジェネレータを逐次同定する手法を提案する。
本手法は,局所的なデータセットを用いて勾配ステップの効果を評価することにより,データ生成の関連性を評価する。
データ生成器が提供する局所的データセットを用いて仮説を更新するために、勾配ステップの適切な一般化により、この手法を非パラメトリックモデルに拡張する。
論文 参考訳(メタデータ) (2024-09-03T17:12:21Z) - Stable Diffusion Dataset Generation for Downstream Classification Tasks [4.470499157873342]
本稿では,Stable Diffusion 2.0モデルの合成データセット生成への応用について検討する。
本稿では,クラスエンコーダとキー生成パラメータの最適化を利用したクラス条件付きモデルを提案する。
その3分の1のケースでは、実際のデータセットでトレーニングされたデータセットよりも優れたパフォーマンスのモデルが生成されました。
論文 参考訳(メタデータ) (2024-05-04T15:37:22Z) - Generating Survival Interpretable Trajectories and Data [2.4861619769660637]
本稿では,合成データセットと実データセットの数値実験を用いて,提案モデルの有効性と特性を実証する。
提案したモデルを実装するアルゴリズムのコードが公開されている。
論文 参考訳(メタデータ) (2024-02-19T18:02:10Z) - Benchmarking and Analyzing Generative Data for Visual Recognition [66.55174903469722]
この研究は生成的画像の影響を深く掘り下げ、主に外部データを利用するパラダイムを比較する。
我々は、2548のカテゴリを持つ22のデータセットからなるベンチマークである textbfGenBench を考案し、様々な視覚的認識タスクにまたがる生成データを評価した。
我々の徹底的なベンチマークと分析は、将来の調査における重要な課題を特定しながら、視覚認識における生成データの約束をスポットライトで示している。
論文 参考訳(メタデータ) (2023-07-25T17:59:59Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Language Models are Realistic Tabular Data Generators [15.851912974874116]
本稿では,GReaT (Generation of Realistic Tabular data) を提案する。
提案手法の有効性を,複数角度から得られたデータサンプルの有効性と品質を定量化する一連の実験で実証した。
論文 参考訳(メタデータ) (2022-10-12T15:03:28Z) - Generation and Simulation of Synthetic Datasets with Copulas [0.0]
本稿では,数値変数あるいは分類変数からなる合成データセットを生成するための完全かつ信頼性の高いアルゴリズムを提案する。
我々の方法論を2つのデータセットに適用すると、SMOTEやオートエンコーダといった他の手法よりも優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-30T13:22:44Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Contrastive Triple Extraction with Generative Transformer [72.21467482853232]
生成変換器を用いた新しい3重抽出モデルを提案する。
具体的には,エンコーダデコーダをベースとした1つの共有トランスフォーマモジュールを提案する。
忠実な結果を得るために,新しい三重項コントラストトレーニングオブジェクトを提案する。
論文 参考訳(メタデータ) (2020-09-14T05:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。