論文の概要: Coreset selection based on Intra-class diversity
- arxiv url: http://arxiv.org/abs/2509.21380v1
- Date: Tue, 23 Sep 2025 12:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.887523
- Title: Coreset selection based on Intra-class diversity
- Title(参考訳): クラス内多様性に基づくコアセット選択
- Authors: Imran Ashraf, Mukhtar Ullah, Muhammad Faisal Nadeem, Muhammad Nouman Noor,
- Abstract要約: 近年の研究では、Deep Learningモデルをトレーニングするための2つの異なるアプローチが採用されている。
データセットのサイズが大きくなるにつれて、この問題に対する解決策を探究する研究コミュニティが最近注目を集めている。
そこで本研究では,クラス内の多様性を抽出し,最終サンプリングに利用したクラスごとのクラスタを生成する手法を提案する。
- 参考スコア(独自算出の注目度): 4.638022690041187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning models have transformed various domains, including the healthcare sector, particularly biomedical image classification by learning intricate features and enabling accurate diagnostics pertaining to complex diseases. Recent studies have adopted two different approaches to train DL models: training from scratch and transfer learning. Both approaches demand substantial computational time and resources due to the involvement of massive datasets in model training. These computational demands are further increased due to the design-space exploration required for selecting optimal hyperparameters, which typically necessitates several training rounds. With the growing sizes of datasets, exploring solutions to this problem has recently gained the research community's attention. A plausible solution is to select a subset of the dataset for training and hyperparameter search. This subset, referred to as the corset, must be a representative set of the original dataset. A straightforward approach to selecting the coreset could be employing random sampling, albeit at the cost of compromising the representativeness of the original dataset. A critical limitation of random sampling is the bias towards the dominant classes in an imbalanced dataset. Even if the dataset has inter-class balance, this random sampling will not capture intra-class diversity. This study addresses this issue by introducing an intelligent, lightweight mechanism for coreset selection. Specifically, it proposes a method to extract intra-class diversity, forming per-class clusters that are utilized for the final sampling. We demonstrate the efficacy of the proposed methodology by conducting extensive classification experiments on a well-known biomedical imaging dataset. Results demonstrate that the proposed scheme outperforms the random sampling approach on several performance metrics for uniform conditions.
- Abstract(参考訳): 深層学習モデルは、医療部門、特に複雑な特徴を学習し、複雑な疾患に関する正確な診断を可能にすることにより、様々な領域を変換してきた。
近年の研究では、スクラッチからのトレーニングとトランスファー学習という、DLモデルをトレーニングするための2つの異なるアプローチが採用されている。
どちらのアプローチも、モデルトレーニングに大量のデータセットが関与するため、かなりの計算時間とリソースを必要とする。
これらの計算要求は、最適ハイパーパラメータの選択に必要な設計空間の探索によってさらに増大し、通常は複数の訓練ラウンドを必要とする。
データセットのサイズが大きくなるにつれて、この問題に対する解決策を探究する試みが、最近、研究コミュニティの注目を集めている。
もっとも有効な解決策は、トレーニングとハイパーパラメータ検索のためのデータセットのサブセットを選択することである。
この部分集合はコルセットと呼ばれ、元のデータセットの代表集合でなければならない。
コアセットを選択するための簡単なアプローチは、元のデータセットの表現性を妥協するコストがかかるにもかかわらず、ランダムサンプリングを採用する可能性がある。
ランダムサンプリングの限界は、不均衡なデータセットにおける支配的なクラスに対するバイアスである。
データセットがクラス間のバランスを持っているとしても、このランダムサンプリングはクラス内の多様性を捉えない。
本研究では、コアセット選択のためのインテリジェントで軽量なメカニズムを導入することでこの問題に対処する。
具体的には、クラス内の多様性を抽出し、最終サンプリングに使用されるクラスごとのクラスタを形成する方法を提案する。
バイオメディカルイメージングデータセットを用いた広範囲な分類実験を行うことにより,提案手法の有効性を実証する。
提案手法は,一様条件に対するいくつかの性能指標において,ランダムサンプリング手法よりも優れた性能を示すことを示す。
関連論文リスト
- Non-Uniform Class-Wise Coreset Selection: Characterizing Category Difficulty for Data-Efficient Transfer Learning [19.152700266277247]
Non-Uniform Class-Wise Coreset Selection (NUCS)は、クラスレベルとインスタンスレベルの両方の基準を統合する新しいフレームワークである。
我々の研究は、コアセット選択におけるカテゴリの難しさを特徴づけることの重要性を強調し、転送学習のための堅牢でデータ効率のよいソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-17T15:40:51Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Diversify and Conquer: Diversity-Centric Data Selection with Iterative Refinement [8.509688686402438]
命令データ上での大規模言語モデルの微調整は、事前訓練された知識の強化と命令追従能力の向上に不可欠である。
この作業は問題に対処する: 効果的なトレーニングのために、データの最適なサブセットをどうやって決定できるのか?
提案手法では,k平均クラスタリングを用いて,選択したサブセットが全データセットを効果的に表現できるようにする。
論文 参考訳(メタデータ) (2024-09-17T17:25:31Z) - JSCDS: A Core Data Selection Method with Jason-Shannon Divergence for Caries RGB Images-Efficient Learning [2.508255511130695]
ディープラーニングモデルのパフォーマンスは、高品質なデータに依存し、相当なトレーニングリソースを必要とする。
本稿では,Jensen-Shannon Divergence (JSCDS) を用いたコアデータ選択手法を提案する。
JSCDSは、予測性能と時間消費において、他のデータ選択方法よりも優れています。
論文 参考訳(メタデータ) (2024-06-29T08:19:25Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Foundation Model Makes Clustering A Better Initialization For Cold-Start Active Learning [5.609241010973952]
コールドスタート能動学習のためのサンプルを選択するために,基礎モデルとクラスタリング手法を統合することを提案する。
ファンデーションモデルは、自己管理パラダイムによってトレーニングされた大量のデータセットを指す。
総合的な比較のために、埋め込みを取得するための古典的なImageNet教師付きモデルを含む。
論文 参考訳(メタデータ) (2024-02-04T16:27:37Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Reinforced Data Sampling for Model Diversification [15.547681142342846]
本稿では,データを適切にサンプリングする方法を学ぶための新しいReinforced Data Smpling (RDS)法を提案する。
モデルダイバーシフィケーションの最適化問題である$delta-div$をデータサンプリングで定式化し,モデルダイバーシフィケーションを注入することで学習ポテンシャルと最適アロケーションを最大化する。
モデル多様化のためのトレーニング可能なサンプリングは,各種機械学習タスクの潜在能力を追求する競技組織,研究者,さらには開始者にとって有用であることが示唆された。
論文 参考訳(メタデータ) (2020-06-12T11:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。