論文の概要: Submodular Mutual Information for Targeted Data Subset Selection
- arxiv url: http://arxiv.org/abs/2105.00043v1
- Date: Fri, 30 Apr 2021 18:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 14:19:02.770319
- Title: Submodular Mutual Information for Targeted Data Subset Selection
- Title(参考訳): 対象データサブセット選択のためのサブモジュラー相互情報
- Authors: Suraj Kothawade, Vishal Kaushal, Ganesh Ramakrishnan, Jeff Bilmes,
Rishabh Iyer
- Abstract要約: 対象とするデータサブセットの選択は,追加のラベリングコストで効果的に解決できることを示す。
CIFAR-10およびMNISTデータセットにおける画像分類の有効性を示す。
SMI関数を用いて、ターゲットサブセットを追加して再トレーニングする前に、モデルの性能を20~30%向上させ、他の手法よりも12%向上する。
- 参考スコア(独自算出の注目度): 11.32091409932449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of data, it is becoming increasingly difficult to train
or improve deep learning models with the right subset of data. We show that
this problem can be effectively solved at an additional labeling cost by
targeted data subset selection(TSS) where a subset of unlabeled data points
similar to an auxiliary set are added to the training data. We do so by using a
rich class of Submodular Mutual Information (SMI) functions and demonstrate its
effectiveness for image classification on CIFAR-10 and MNIST datasets. Lastly,
we compare the performance of SMI functions for TSS with other state-of-the-art
methods for closely related problems like active learning. Using SMI functions,
we observe ~20-30% gain over the model's performance before re-training with
added targeted subset; ~12% more than other methods.
- Abstract(参考訳): データの急速な成長に伴い、データの適切なサブセットでディープラーニングモデルのトレーニングや改善がますます難しくなってきている。
トレーニングデータに補助集合に類似したラベル付きデータポイントのサブセットを付加したターゲットデータサブセット選択(TSS)により、追加のラベル付けコストでこの問題を効果的に解決できることを示す。
サブモジュール・ミューチュアル・インフォメーション(SMI)関数の豊富なクラスを用いて,CIFAR-10およびMNISTデータセットの画像分類の有効性を示す。
最後に,TSSにおけるSMI関数の性能と,能動学習のような密接に関連する問題に対する最先端の手法を比較した。
SMI関数を用いて、ターゲットサブセットを追加して再トレーニングする前に、モデルの性能よりも約20-30%向上する。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Learning to Maximize Mutual Information for Dynamic Feature Selection [13.821253491768168]
本稿では,現在利用可能な情報に基づいてモデルを逐次クエリする動的特徴選択(DFS)問題を考察する。
条件付き相互情報に基づいて,特徴を欲求的に選択する,よりシンプルなアプローチについて検討する。
提案手法は,最適性を訓練した際の欲求を回復し,既存の特徴選択法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-02T08:31:56Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Diminishing Uncertainty within the Training Pool: Active Learning for
Medical Image Segmentation [6.3858225352615285]
医用画像データセットのセグメンテーション作業におけるアクティブラーニングについて検討する。
トレーニングデータセットをバイアスする不確実データの頻度の増大、入力画像間の相互情報を正規化として利用すること、およびスタイン変動勾配降下(SVGD)のためのダイスログの類似性(Dice log-likelihood)の適応という3つの新しいアクティブ学習戦略を提案する。
その結果、データセット毎に利用可能なデータの22.69 %と48.85 %をそれぞれ使用しながら、完全な精度を達成することで、データ削減の観点での改善が示された。
論文 参考訳(メタデータ) (2021-01-07T01:55:48Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - S^3-Rec: Self-Supervised Learning for Sequential Recommendation with
Mutual Information Maximization [104.87483578308526]
本稿では,シーケンスレコメンデーションのための自己改善学習のためのモデルS3-Recを提案する。
そこで本稿では,属性,項目,サブシーケンス,シーケンス間の相関関係を学習するために,4つの補助的自己教師対象を考案する。
6つの実世界のデータセットで実施された大規模な実験は、既存の最先端手法よりも提案手法が優れていることを示す。
論文 参考訳(メタデータ) (2020-08-18T11:44:10Z) - ATSO: Asynchronous Teacher-Student Optimization for Semi-Supervised
Medical Image Segmentation [99.90263375737362]
教師-学生最適化の非同期版であるATSOを提案する。
ATSOはラベルのないデータを2つのサブセットに分割し、モデルの微調整に1つのサブセットを交互に使用し、他のサブセットのラベルを更新する。
医用画像のセグメンテーションデータセットを2つ評価し,様々な半教師付き環境において優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-24T04:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。