論文の概要: Data Augmentation by Selecting Mixed Classes Considering Distance
Between Classes
- arxiv url: http://arxiv.org/abs/2209.05122v1
- Date: Mon, 12 Sep 2022 10:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 12:28:00.065052
- Title: Data Augmentation by Selecting Mixed Classes Considering Distance
Between Classes
- Title(参考訳): クラス間距離を考慮した混合クラス選択によるデータ拡張
- Authors: Shungo Fujii, Yasunori Ishii, Kazuki Kozuka, Tsubasa Hirakawa,
Takayoshi Yamashita, Hironobu Fujiyoshi
- Abstract要約: ミックスアップのような複数のデータセットから混合データを生成する方法は、精度の向上に大きく貢献する。
本稿では,クラス間の距離をクラス確率に基づいて計算するデータ拡張手法を提案する。
提案手法により,画像認識データセットの認識性能が向上することを示す。
- 参考スコア(独自算出の注目度): 9.690454593095495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation is an essential technique for improving recognition
accuracy in object recognition using deep learning. Methods that generate mixed
data from multiple data sets, such as mixup, can acquire new diversity that is
not included in the training data, and thus contribute significantly to
accuracy improvement. However, since the data selected for mixing are randomly
sampled throughout the training process, there are cases where appropriate
classes or data are not selected. In this study, we propose a data augmentation
method that calculates the distance between classes based on class
probabilities and can select data from suitable classes to be mixed in the
training process. Mixture data is dynamically adjusted according to the
training trend of each class to facilitate training. The proposed method is
applied in combination with conventional methods for generating mixed data.
Evaluation experiments show that the proposed method improves recognition
performance on general and long-tailed image recognition datasets.
- Abstract(参考訳): 深層学習を用いた物体認識における認識精度の向上には,データ拡張が不可欠である。
ミックスアップのような複数のデータセットから混合データを生成する方法は、トレーニングデータに含まれない新しい多様性を取得し、精度の向上に大きく貢献する。
しかし、混合のために選択されたデータはトレーニングプロセス全体でランダムにサンプリングされるため、適切なクラスやデータが選択されないケースもある。
本研究では,クラス確率に基づいてクラス間の距離を計算し,学習過程において混在する適切なクラスからデータを選択するデータ拡張手法を提案する。
混合データは、各クラスのトレーニング傾向に応じて動的に調整され、訓練を容易にする。
提案手法は従来の混合データ生成手法と組み合わせて適用した。
評価実験により,一般および長期画像認識データセットの認識性能が向上することを示した。
関連論文リスト
- Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Deep Unfolding-based Weighted Averaging for Federated Learning in
Heterogeneous Environments [11.023081396326507]
フェデレートラーニング(Federated Learning)は、複数のクライアントによるモデル更新と、中央サーバによるアップデートの集約を反復する、協調的なモデルトレーニング手法である。
そこで本研究では, パラメータ調整法として, 深部展開法(deep unfolding)を用いる。
提案手法は,実世界の現実的なタスクを遂行できるような事前学習モデルを用いて,大規模学習モデルを扱うことができる。
論文 参考訳(メタデータ) (2022-12-23T08:20:37Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Mask-based Data Augmentation for Semi-supervised Semantic Segmentation [3.946367634483361]
そこで我々は,CutMix と ClassMix の側面を組み込んだデータ拡張手法である ComplexMix を提案する。
提案手法は、意味論的に正しいようにしながら、拡張データの複雑さを制御できる。
実験結果から,セマンティック画像分割のための標準データセットにおける最新手法の改良が得られた。
論文 参考訳(メタデータ) (2021-01-25T15:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。