論文の概要: HeroLT: Benchmarking Heterogeneous Long-Tailed Learning
- arxiv url: http://arxiv.org/abs/2307.08235v1
- Date: Mon, 17 Jul 2023 04:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:41:53.369597
- Title: HeroLT: Benchmarking Heterogeneous Long-Tailed Learning
- Title(参考訳): HeroLT: 異種長期学習のベンチマーク
- Authors: Haohui Wang, Weijie Guan, Jianpeng Chen, Zi Wang, Dawei Zhou
- Abstract要約: 長期データ配信は、金融、電子商取引、バイオメディカルサイエンス、サイバーセキュリティなど、さまざまな領域で普及している。
我々はHeroLTという,最も包括的な(私たちの知る限り)長期学習ベンチマークを開発しました。
HeroLTは、13の最先端アルゴリズムと6つの評価メトリクスを、3つのドメインから4つのタスクにまたがる14の現実世界のベンチマークデータセットに統合する。
- 参考スコア(独自算出の注目度): 29.097422469602556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-tailed data distributions are prevalent in a variety of domains,
including finance, e-commerce, biomedical science, and cyber security. In such
scenarios, the performance of machine learning models is often dominated by the
head categories, while the learning of tail categories is significantly
inadequate. Given abundant studies conducted to alleviate the issue, this work
aims to provide a systematic view of long-tailed learning with regard to three
pivotal angles: (A1) the characterization of data long-tailedness, (A2) the
data complexity of various domains, and (A3) the heterogeneity of emerging
tasks. To achieve this, we develop the most comprehensive (to the best of our
knowledge) long-tailed learning benchmark named HeroLT, which integrates 13
state-of-the-art algorithms and 6 evaluation metrics on 14 real-world benchmark
datasets across 4 tasks from 3 domains. HeroLT with novel angles and extensive
experiments (264 in total) enables researchers and practitioners to effectively
and fairly evaluate newly proposed methods compared with existing baselines on
varying types of datasets. Finally, we conclude by highlighting the significant
applications of long-tailed learning and identifying several promising future
directions. For accessibility and reproducibility, we open-source our benchmark
HeroLT and corresponding results at https://github.com/SSSKJ/HeroLT.
- Abstract(参考訳): 長期データ配信は、金融、電子商取引、バイオメディカルサイエンス、サイバーセキュリティなど、さまざまな領域で普及している。
このようなシナリオでは、機械学習モデルのパフォーマンスはしばしばヘッドカテゴリによって支配されるが、テールカテゴリの学習は著しく不十分である。
本研究は, 課題を緩和するために実施された豊富な研究を踏まえ, (A1) データの長期性の特徴, (A2) データの複雑さ, (A3) 出現するタスクの不均一性の3点について, 長期学習の体系的視点を提供することを目的とする。
これを実現するために,HeroLTという,最も包括的な(私たちの知る限りの)長期学習ベンチマークを開発した。13の最先端アルゴリズムと6つの評価指標を,3つのドメインから4つのタスクにまたがる14の実世界のベンチマークデータセットに統合する。
新たなアングルと広範な実験(合計264回)を持つHeroLTは、研究者や実践者が、様々な種類のデータセットの既存のベースラインと比較して、新しく提案された手法を効果的かつ適切に評価することを可能にする。
最後に,長期学習の重要応用を強調し,将来有望ないくつかの方向を特定する。
アクセシビリティと再現性のために、私たちはHeroLTベンチマークと対応する結果をhttps://github.com/SSSKJ/HeroLTでオープンソース化しました。
関連論文リスト
- Continual Learning with Pre-Trained Models: A Survey [66.49084129482239]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision
Research [96.53307645791179]
我々は,100以上の視覚的分類タスクのストリームからなるベンチマークであるNever-Ending VIsual-classification Stream (NEVIS'22)を紹介する。
分類に制限されているにもかかわらず、OCR、テクスチャ分析、シーン認識など、様々なタスクが生成される。
NEVIS'22は、タスクの規模と多様性のために、現在のシーケンシャルな学習アプローチに対して前例のない課題を提起している。
論文 参考訳(メタデータ) (2022-11-15T18:57:46Z) - Tackling Long-Tailed Category Distribution Under Domain Shifts [50.21255304847395]
既存のアプローチでは、両方の問題が存在するシナリオに対処できません。
本研究では,分散校正型分類損失,視覚意味マッピング,セマンティック類似性誘導拡張の3つの新しい機能ブロックを設計した。
AWA2-LTSとImageNet-LTSという2つの新しいデータセットが提案された。
論文 参考訳(メタデータ) (2022-07-20T19:07:46Z) - Data Augmentation techniques in time series domain: A survey and
taxonomy [0.20971479389679332]
時系列を扱うディープニューラルネットワークは、トレーニングで使用されるデータセットのサイズと一貫性に大きく依存する。
この研究は、すべての利用可能なアルゴリズムの概要を提供するために、この分野の最先端を体系的にレビューする。
本研究の究極的な目的は、この分野の将来の研究者を導くために、より良い結果をもたらす領域の進化と性能を概説することである。
論文 参考訳(メタデータ) (2022-06-25T17:09:00Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Deep Long-Tailed Learning: A Survey [163.16874896812885]
ディープ・ロングテール・ラーニング(Deep Long-tailed Learning)は、長いテールのクラス分布に追従する多数の画像から、優れたパフォーマンスのディープモデルをトレーニングすることを目的としている。
長い尾を持つクラス不均衡は、現実的な視覚認識タスクにおいて一般的な問題である。
本稿では,近年の長期学習の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2021-10-09T15:25:22Z) - A Survey on Data Augmentation for Text Classification [0.0]
データ拡張は、変換による機械学習のためのトレーニングデータの人工的な作成である。
目標を規則化し、限られた量のトレーニングデータを克服することから、プライバシを保護するために使用されるデータ量を制限することまで、多くの課題や問題に対処することができる。
本調査は,テキスト分類のためのデータ拡張手法に関するもので,研究者や実践者の簡潔で包括的な概要を実現することを目的としている。
論文 参考訳(メタデータ) (2021-07-07T11:37:03Z) - Multi-Task Hierarchical Learning Based Network Traffic Analytics [18.04195092141071]
約1.3Mのラベル付きフローを含む3つのオープンデータセットを提示する。
我々は、マルウェア検出とアプリケーション分類の両方を含む、ネットワークトラフィック分析の幅広い側面に焦点を当てる。
成長を続けるにつれて、データセットはAI駆動の再現可能なネットワークフロー分析研究の共通基盤として機能することを期待しています。
論文 参考訳(メタデータ) (2021-06-05T02:25:59Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Are We Hungry for 3D LiDAR Data for Semantic Segmentation? A Survey and
Experimental Study [5.6780397318769245]
3Dセマンティックセグメンテーションは、ロボットおよび自律運転アプリケーションの基本課題である。
最近の研究はディープラーニング技術の利用に重点を置いているが、細かな注釈付き3DLiDARデータセットの開発は非常に労働集約的である。
不十分なデータセットによって引き起こされるパフォーマンスの制限は、データ飢餓問題と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T01:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。