Fugu-MT 論文翻訳(概要): Synthetic Embedding-based Data Generation Methods for Student Performance

論文の概要: Synthetic Embedding-based Data Generation Methods for Student Performance

arxiv url: http://arxiv.org/abs/2101.00728v1
Date: Sun, 3 Jan 2021 23:43:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-12 12:02:20.747193
Title: Synthetic Embedding-based Data Generation Methods for Student Performance
Title（参考訳）: 学生パフォーマンスのための合成組込み型データ生成手法
Authors: Dom Huh
Abstract要約: 合成埋め込み型データ生成のための汎用フレームワーク(SEDG)を提案する。 SEDGは, 組込みを用いた新しい合成試料を探索的に生成し, クラス不均衡の抑制効果を最適に補正する手法である。 SEDGはディープニューラルネットワークの従来の再サンプリング手法より優れている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the inherent class imbalance issue within student performance datasets, samples belonging to the edges of the target class distribution pose a challenge for predictive machine learning algorithms to learn. In this paper, we introduce a general framework for synthetic embedding-based data generation (SEDG), a search-based approach to generate new synthetic samples using embeddings to correct the detriment effects of class imbalances optimally. We compare the SEDG framework to past synthetic data generation methods, including deep generative models, and traditional sampling methods. In our results, we find SEDG to outperform the traditional re-sampling methods for deep neural networks and perform competitively for common machine learning classifiers on the student performance task in several standard performance metrics.
Abstract（参考訳）: 学生のパフォーマンスデータセットに固有のクラス不均衡の問題を考えると、ターゲットクラス分布のエッジに属するサンプルは予測機械学習アルゴリズムが学習する上で課題となる。本稿では,組込みを用いた新しい合成サンプル生成手法であるSEDG(Synthetic Embedding-based Data Generation)の一般的なフレームワークを導入し,クラス不均衡の軽減効果を最適に補正する。我々は、SEDGフレームワークを、深層生成モデルや従来のサンプリング方法を含む過去の合成データ生成手法と比較する。その結果,sedgは,ディープニューラルネットワークの従来の再サンプリング手法を上回っており,いくつかの標準性能指標において,学生パフォーマンスタスクにおける共通機械学習分類器の競合性が高いことがわかった。

関連論文リスト

Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文参考訳（メタデータ） (2025-06-20T00:17:14Z)
CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文参考訳（メタデータ） (2025-06-03T12:42:20Z)
Provably Improving Generalization of Few-Shot Models with Synthetic Data [15.33628135372502]
本研究では,分散の相違が教師あり学習に与える影響を定量化する理論的枠組みを開発する。本稿では,データ分割とモデルトレーニングの両方を最適化するために,プロトタイプ学習を統合した理論に基づく新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-30T03:59:45Z)
Kernel-Based Enhanced Oversampling Method for Imbalanced Classification [10.112750055561877]
本稿では,不均衡なデータセットの分類性能を向上させるために,新しいオーバーサンプリング手法を提案する。提案手法は、凸結合とカーネルベースの重み付けを組み込むことで従来のSMOTEアルゴリズムを強化し、マイノリティクラスをより良く表現する合成サンプルを生成する。
論文参考訳（メタデータ） (2025-04-12T09:24:23Z)
Deep Learning Meets Oversampling: A Learning Framework to Handle Imbalanced Classification [0.0]
データ駆動型で合成データインスタンスを生成できる新しい学習フレームワークを提案する。提案手法は, オーバーサンプリング過程を離散決定基準の構成として定式化する。不均衡な分類タスクの実験は、最先端のアルゴリズムよりも我々のフレームワークの方が優れていることを示す。
論文参考訳（メタデータ） (2025-02-08T13:35:00Z)
Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches [35.431340001608476]
本稿では,データ拡張とモデルファインチューニングを融合することで,少数ショット学習を向上するための革新的なアプローチを提案する。薬物発見、ターゲット認識、悪意のあるトラフィック検出などの分野で、小さなサンプルデータによって引き起こされる課題に対処することを目的としている。その結果,本研究で開発されたMhERGANアルゴリズムは,数発の学習に極めて有効であることが確認された。
論文参考訳（メタデータ） (2024-11-25T16:51:11Z)
FuseGen: PLM Fusion for Data-generation based Zero-shot Learning [18.51772808242954]
FuseGenは、新しいデータ生成ベースのゼロショット学習フレームワークである。合成データセットからのサブセット選択のための新しい基準を導入する。選択されたサブセットは、各PLMに対してコンテキスト内フィードバックを提供し、データセットの品質を向上する。
論文参考訳（メタデータ） (2024-06-18T11:55:05Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Synthetic Information towards Maximum Posterior Ratio for deep learning on Imbalanced Data [1.7495515703051119]
マイノリティクラスのための合成データを生成することによって,データのバランスをとる手法を提案する。提案手法は,高エントロピーサンプルを同定することにより,情報領域のバランスを優先する。実験結果から,提案手法の優れた性能を実証した。
論文参考訳（メタデータ） (2024-01-05T01:08:26Z)
Downstream Task-Oriented Generative Model Selections on Synthetic Data Training for Fraud Detection Models [9.754400681589845]
本稿では,学習不正検出モデルにおける下流タスク指向生成モデル選択問題にアプローチする。本研究は,ニューラルネットワーク(NN)とベイジアンネットワーク(BN)をベースとした生成モデルの両方が,ゆるやかなモデル解釈可能性制約下での合成トレーニングタスクの完了に適しているが,BNベースの生成モデルは,厳密なモデル解釈可能性制約下での合成トレーニング不正検出モデルにおいて,NNベースより優れていることを裏付けるものである。
論文参考訳（メタデータ） (2024-01-01T23:33:56Z)
Domain Generalization Guided by Gradient Signal to Noise Ratio of Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文参考訳（メタデータ） (2023-10-11T10:21:34Z)
Evaluating the Utility of GAN Generated Synthetic Tabular Data for Class Balancing and Low Resource Settings [0.0]
この研究はクラスバランス実験に一般化線形モデル(GLM)アルゴリズムを用いた。低リソース実験では、GAN合成データで強化されたデータに基づいてトレーニングされたモデルは、元のデータよりも優れたリコール値を示した。
論文参考訳（メタデータ） (2023-06-24T10:27:08Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
Revisiting LSTM Networks for Semi-Supervised Text Classification via Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文参考訳（メタデータ） (2020-09-08T21:55:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。