論文の概要: Close to Reality: Interpretable and Feasible Data Augmentation for Imbalanced Learning
- arxiv url: http://arxiv.org/abs/2603.13927v1
- Date: Sat, 14 Mar 2026 12:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.49054
- Title: Close to Reality: Interpretable and Feasible Data Augmentation for Imbalanced Learning
- Title(参考訳): 現実に近づく:不均衡学習のための解釈可能かつ実現可能なデータ拡張
- Authors: Matheus Camilo da Silva, Gabriel Gustavo Costanzo, Andrea de Lorenzo, Sylvio Barbon Junior,
- Abstract要約: データ拡張のための決定述語グラフ(DPG-da)は,学習モデルから解釈可能な決定述語を抽出するフレームワークである。
合成および実世界のベンチマークデータセットの実験では、DSG-daは従来のオーバーサンプリング手法よりも常に分類性能を改善している。
- 参考スコア(独自算出の注目度): 0.8062201442038957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning classification tasks involve imbalanced datasets, which are often subject to over-sampling techniques aimed at improving model performance. However, these techniques are prone to generating unrealistic or infeasible samples. Furthermore, they often function as black boxes, lacking interpretability in their procedures. This opacity makes it difficult to track their effectiveness and provide necessary adjustments, and they may ultimately fail to yield significant performance improvements. To bridge this gap, we introduce the Decision Predicate Graphs for Data Augmentation (DPG-da), a framework that extracts interpretable decision predicates from trained models to capture domain rules and enforce them during sample generation. This design ensures that over-sampled data remain diverse, constraint-satisfying, and interpretable. In experiments on synthetic and real-world benchmark datasets, DPG-da consistently improves classification performance over traditional over-sampling methods, while guaranteeing logical validity and offering clear, interpretable explanations of the over-sampled data.
- Abstract(参考訳): 多くの機械学習分類タスクには、不均衡なデータセットが含まれており、しばしばモデルパフォーマンスの改善を目的としたオーバーサンプリング技術に従わなければならない。
しかし、これらの技術は非現実的または実用不可能なサンプルを生成する傾向にある。
さらに、ブラックボックスとして機能し、手順の解釈性に欠けることが多い。
この不透明さは、それらの効果を追跡し、必要な調整を提供することを困難にし、最終的には大幅な性能改善を達成できない可能性がある。
このギャップを埋めるために、我々はDPG-da(Decision Predicate Graphs for Data Augmentation)というフレームワークを紹介します。
この設計により、オーバーサンプリングされたデータが多様であり、制約に満足し、解釈可能であることが保証される。
合成および実世界のベンチマークデータセットの実験では、DSG-daは従来のオーバーサンプリング手法よりも常に分類性能を改善し、論理的妥当性を保証し、オーバーサンプリングされたデータの明確な解釈可能な説明を提供する。
関連論文リスト
- Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - CART-based Synthetic Tabular Data Generation for Imbalanced Regression [1.342834401139078]
我々は、既存のCARTベースの合成データ生成手法を適応させ、不均衡回帰に適合させることを提案する。
本手法は, 対象空間のスパース領域におけるサンプリングを誘導するための関連性および密度に基づくメカニズムを統合する。
本実験は,ベンチマークデータセット間での極端目標値の予測に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-03T12:42:20Z) - Model-Free Counterfactual Subset Selection at Scale [11.646993755965006]
ストリーミングの説明は、データセット全体の永続的なストレージを必要とせずに、適応的でリアルタイムな洞察を提供する。
我々のアルゴリズムはストリーミング設定において効率よく動作し、アイテムごとの更新複雑性を$O(log k)$に維持する。
実世界のデータセットと合成データセットの両方に対する実証的な評価は、ベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-12T11:48:15Z) - Enhancing Interpretability Through Loss-Defined Classification Objective in Structured Latent Spaces [5.2542280870644715]
本稿では,高度な距離メトリック学習を教師付き分類タスクに統合する新しいアプローチであるLatent Boostを紹介する。
Latent Boostは、より高いシルエットスコアで示されるように、分類解釈性を改善し、トレーニング収束を加速する。
論文 参考訳(メタデータ) (2024-12-11T16:25:17Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Towards Continually Learning Application Performance Models [1.2278517240988065]
機械学習ベースのパフォーマンスモデルは、重要なジョブスケジューリングとアプリケーションの最適化決定を構築するために、ますます使われています。
伝統的に、これらのモデルは、より多くのサンプルが時間とともに収集されるため、データ分布が変化しないと仮定する。
本研究では,分布のドリフトを考慮した継続的な学習性能モデルを構築し,破滅的な忘れを軽減し,一般化性を向上させる。
論文 参考訳(メタデータ) (2023-10-25T20:48:46Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。