論文の概要: Addressing Multilabel Imbalance with an Efficiency-Focused Approach Using Diffusion Model-Generated Synthetic Samples
- arxiv url: http://arxiv.org/abs/2501.10822v1
- Date: Sat, 18 Jan 2025 16:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:52.997350
- Title: Addressing Multilabel Imbalance with an Efficiency-Focused Approach Using Diffusion Model-Generated Synthetic Samples
- Title(参考訳): 拡散モデル生成合成サンプルを用いた効率Focusedアプローチによるマルチラベル不均衡への対処
- Authors: Francisco Charte, Miguel Ángel Dávila, María Dolores Pérez-Godoy, María José del Jesus,
- Abstract要約: マルチラベル学習(MLL)アルゴリズムは、パターンの分類、ラベルのランク付け、出力の分布の学習に使用される。
少数なラベルに関連付けられた新しいインスタンスの生成により、特徴空間の空き領域が満たされ、得られたモデルを改善するのに役立つ。
本稿ではMLDMと呼ばれるMLLデータの新しいインスタンスを生成するための拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 2.5399059426702575
- License:
- Abstract: Predictive models trained on imbalanced data tend to produce biased results. This problem is exacerbated when there is not just one output label, but a set of them. This is the case for multilabel learning (MLL) algorithms used to classify patterns, rank labels, or learn the distribution of outputs. Many solutions have been proposed in the literature. The one that can be applied universally, independent of the algorithm used to build the model, is data resampling. The generation of new instances associated with minority labels, so that empty areas of the feature space are filled, helps to improve the obtained models. The quality of these new instances depends on the algorithm used to generate them. In this paper, a diffusion model tailored to produce new instances for MLL data, called MLDM (\textit{MultiLabel Diffusion Model}), is proposed. Diffusion models have been mainly used to generate artificial images and videos. Our proposed MLDM is based on this type of models. The experiments conducted compare MLDM with several other MLL resampling algorithms. The results show that MLDM is competitive while it improves efficiency.
- Abstract(参考訳): 不均衡なデータに基づいてトレーニングされた予測モデルは、バイアスのある結果を生み出す傾向がある。
この問題は、出力ラベルが1つだけではなく、そのセットが1つある場合に悪化する。
これは、パターンの分類、ラベルのランク付け、出力の分布の学習に使用されるマルチラベル学習(MLL)アルゴリズムのケースである。
文献で多くの解が提案されている。
モデル構築に使用されるアルゴリズムとは独立して、普遍的に適用できるのは、データ再サンプリングである。
少数なラベルに関連付けられた新しいインスタンスの生成により、特徴空間の空き領域が満たされ、得られたモデルを改善するのに役立つ。
これらの新しいインスタンスの品質は、それらを生成するために使用されるアルゴリズムに依存する。
本稿では,MLDM(\textit{MultiLabel Diffusion Model})と呼ばれるMLLデータの新しいインスタンスを生成するための拡散モデルを提案する。
拡散モデルは、主に人工画像やビデオを生成するために使われてきた。
提案するMLDMは,このようなモデルに基づいている。
実験はMLDMと他のMLL再サンプリングアルゴリズムを比較した。
その結果,MLDMは効率が向上する一方で競争力があることがわかった。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - S$^{2}$-DMs:Skip-Step Diffusion Models [10.269647566864247]
拡散モデルは強力な生成ツールとして出現し、サンプル品質のGANと競合し、自己回帰モデルの可能性スコアを反映している。
これらのモデルのサブセットはDDIMによって例示され、固有の非対称性を示す:それらは$T$ステップで訓練されるが、生成時に$T$のサブセットからのみサンプルされる。
この選択的なサンプリング手法は、スピードに最適化されているが、無サンプルのステップから必然的に重要な情報を見逃し、サンプルの品質が損なわれる可能性がある。
革新的な$Lを用いた新しいトレーニング手法であるS$2$-DMを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:08:32Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Improved Denoising Diffusion Probabilistic Models [4.919647298882951]
その結果,ddpmは高いサンプル品質を維持しつつ,競合的なログライク性を達成できることがわかった。
また,逆拡散過程の学習分散により,フォワードパスが桁違いに小さくサンプリングできることがわかった。
これらのモデルのサンプルの品質と可能性について,モデルのキャパシティとトレーニング計算でスムーズに拡張できることを示し,スケーラビリティを向上する。
論文 参考訳(メタデータ) (2021-02-18T23:44:17Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Recovery of Sparse Signals from a Mixture of Linear Samples [44.3425205248937]
線形回帰の混合は、不均一なデータを表現するために広く使用される一般的な学習理論モデルである。
最近の研究は,この問題に対するモデルリカバリの実験的設計に焦点をあてている。
本研究では、このクエリ複雑性問題に対処し、これまで最もよく知られていた結果を改善する効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-06-29T21:52:40Z) - Learning Gaussian Graphical Models via Multiplicative Weights [54.252053139374205]
乗算重み更新法に基づいて,Klivans と Meka のアルゴリズムを適用した。
アルゴリズムは、文献の他のものと質的に類似したサンプル複雑性境界を楽しみます。
ランタイムが低い$O(mp2)$で、$m$サンプルと$p$ノードの場合には、簡単にオンライン形式で実装できる。
論文 参考訳(メタデータ) (2020-02-20T10:50:58Z) - Expected Information Maximization: Using the I-Projection for Mixture
Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。
我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。
我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文 参考訳(メタデータ) (2020-01-23T17:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。