論文の概要: ALScope: A Unified Toolkit for Deep Active Learning
- arxiv url: http://arxiv.org/abs/2508.04937v1
- Date: Wed, 06 Aug 2025 23:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.664484
- Title: ALScope: A Unified Toolkit for Deep Active Learning
- Title(参考訳): ALScope: ディープラーニングのための統一ツールキット
- Authors: Chenkai Wu, Yuanyuan Qi, Xiaohao Yang, Jueqing Lu, Gang Liu, Wray Buntine, Lan Du,
- Abstract要約: Deep Active Learning (DAL)は、トレーニング中に最も有益な未ラベルのサンプルを選択することで、アノテーションのコストを削減する。
コンピュータビジョン(CV)と自然言語処理(NLP)から10のデータセットを統合することで、分類タスクのための新しいDALプラットフォームALScopeを提案する。
このプラットフォームは、アルゴリズムやデータセットの選択から、アウト・オブ・ディストリビューション(OOD)サンプル比のようなタスク固有の要因まで、主要な実験要素の柔軟な設定をサポートする。
- 参考スコア(独自算出の注目度): 5.2705718569212285
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Active Learning (DAL) reduces annotation costs by selecting the most informative unlabeled samples during training. As real-world applications become more complex, challenges stemming from distribution shifts (e.g., open-set recognition) and data imbalance have gained increasing attention, prompting the development of numerous DAL algorithms. However, the lack of a unified platform has hindered fair and systematic evaluation under diverse conditions. Therefore, we present a new DAL platform ALScope for classification tasks, integrating 10 datasets from computer vision (CV) and natural language processing (NLP), and 21 representative DAL algorithms, including both classical baselines and recent approaches designed to handle challenges such as distribution shifts and data imbalance. This platform supports flexible configuration of key experimental factors, ranging from algorithm and dataset choices to task-specific factors like out-of-distribution (OOD) sample ratio, and class imbalance ratio, enabling comprehensive and realistic evaluation. We conduct extensive experiments on this platform under various settings. Our findings show that: (1) DAL algorithms' performance varies significantly across domains and task settings; (2) in non-standard scenarios such as imbalanced and open-set settings, DAL algorithms show room for improvement and require further investigation; and (3) some algorithms achieve good performance, but require significantly longer selection time.
- Abstract(参考訳): Deep Active Learning (DAL)は、トレーニング中に最も有益な未ラベルのサンプルを選択することで、アノテーションのコストを削減する。
現実世界のアプリケーションが複雑化するにつれ、分散シフト(例えば、オープンセット認識)やデータ不均衡に起因する課題が注目され、多数のDALアルゴリズムの開発が進められている。
しかし、統一プラットフォームがないため、様々な条件下での公平かつ体系的な評価が妨げられている。
そこで本研究では,コンピュータビジョン(CV)と自然言語処理(NLP)から10のデータセットを統合し,古典的ベースラインと近年の分散シフトやデータ不均衡といった課題に対処するアプローチを含む,21の代表的なDALアルゴリズムを統合するDALプラットフォームALScopeを提案する。
このプラットフォームは、アルゴリズムやデータセットの選択から、アウト・オブ・ディストリビューション(OOD)サンプル比、クラス不均衡比といったタスク固有の要因まで、主要な実験要素の柔軟な構成をサポートし、包括的な現実的な評価を可能にします。
このプラットフォーム上で、さまざまな設定で広範な実験を行う。
その結果,(1)DALアルゴリズムの性能は領域やタスク設定によって大きく異なること,(2)不均衡やオープンセットの設定などの非標準シナリオでは,DALアルゴリズムは改善の余地を示し,さらなる調査を必要とすること,(3)一部のアルゴリズムは優れた性能を実現するが,選択時間が大幅に長いこと,などが判明した。
関連論文リスト
- CHASe: Client Heterogeneity-Aware Data Selection for Effective Federated Active Learning [22.38403602956309]
フェデレートアクティブラーニング(FAL)に特化して設計されたCHASe (Client Heterogeneity-Aware Data Selection)を提案する。
CHASeは、トレーニング中の意思決定の境界を揺らぎながら、高い疫学変化(EV)を持つラベルのないサンプルを特定することに重点を置いている。
実験により、CHASeは、さまざまなデータセット、モデル複雑度、異種フェデレーション設定にまたがって検証される、有効性と効率の観点から、確立されたさまざまなベースラインを超えることが示されている。
論文 参考訳(メタデータ) (2025-04-24T11:28:00Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Informed Decision-Making through Advancements in Open Set Recognition and Unknown Sample Detection [0.0]
オープンセット認識(OSR)は、より現実に近い状況に分類タスクを導入することを目的としている。
本研究は,OSRタスクの分類を改善するために,特徴空間の新たな表現を探索するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-05-09T15:15:34Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。