論文の概要: A Cross-Domain Benchmark for Active Learning
- arxiv url: http://arxiv.org/abs/2408.00426v2
- Date: Tue, 12 Nov 2024 13:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:16:34.438747
- Title: A Cross-Domain Benchmark for Active Learning
- Title(参考訳): アクティブラーニングのためのクロスドメインベンチマーク
- Authors: Thorben Werner, Johannes Burchert, Maximilian Stubbemann, Lars Schmidt-Thieme,
- Abstract要約: Active Learningは、データアノテーションのコストを削減するためにラベル付けの最も有益なサンプルを特定する。
コンピュータビジョンと自然言語処理のタスクを含む最初のアクティブラーニングベンチマークであるCDALBenchを提案する。
AL研究の高度評価には,クロスドメインキャラクタと大量の繰り返しが不可欠であることを示す。
- 参考スコア(独自算出の注目度): 5.359176539960004
- License:
- Abstract: Active Learning (AL) deals with identifying the most informative samples for labeling to reduce data annotation costs for supervised learning tasks. AL research suffers from the fact that lifts from literature generalize poorly and that only a small number of repetitions of experiments are conducted. To overcome these obstacles, we propose CDALBench, the first active learning benchmark which includes tasks in computer vision, natural language processing and tabular learning. Furthermore, by providing an efficient, greedy oracle, CDALBench can be evaluated with 50 runs for each experiment. We show, that both the cross-domain character and a large amount of repetitions are crucial for sophisticated evaluation of AL research. Concretely, we show that the superiority of specific methods varies over the different domains, making it important to evaluate Active Learning with a cross-domain benchmark. Additionally, we show that having a large amount of runs is crucial. With only conducting three runs as often done in the literature, the superiority of specific methods can strongly vary with the specific runs. This effect is so strong, that, depending on the seed, even a well-established method's performance can be significantly better and significantly worse than random for the same dataset.
- Abstract(参考訳): アクティブラーニング(AL)は、教師付き学習タスクのデータアノテーションコストを削減するためにラベル付けのための最も有益なサンプルを特定する。
ALリサーチは、文学からの持ち上げがあまり一般化せず、少数の実験しか行われていないという事実に悩まされている。
これらの障害を克服するために,コンピュータビジョン,自然言語処理,表型学習などのタスクを含む最初のアクティブ学習ベンチマークであるCDALBenchを提案する。
さらに,CDALBenchは効率のよい強欲なオラクルを提供することで,実験毎に50回のランで評価することができる。
AL研究の高度評価には,クロスドメインキャラクタと大量の繰り返しが不可欠であることを示す。
具体的には、特定のメソッドの優越性はドメインによって異なることを示し、クロスドメインベンチマークでアクティブラーニングを評価することが重要である。
さらに、大量のランを持つことが重要であることも示しています。
文献でしばしば行われるように3回の実行しか行わないため、特定のメソッドの優越性は特定の実行に強く依存する。
この効果は非常に強く、種によっては、確立されたメソッドのパフォーマンスでさえ、同じデータセットに対してランダムよりも大幅に改善され、さらに悪化する可能性がある。
関連論文リスト
- M3: A Multi-Task Mixed-Objective Learning Framework for Open-Domain Multi-Hop Dense Sentence Retrieval [12.277521531556852]
M3は,高密度テキスト表現学習のためのマルチタスク混合オブジェクトに基づく,新しいマルチホップ高密度文検索システムである。
提案手法は,大規模オープンドメイン事実検証ベンチマークデータセットであるFEVER上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T01:52:07Z) - Towards Comparable Active Learning [6.579888565581481]
近年の文献で報告されているリフトは、他の領域にあまり一般化せず、アクティブラーニング研究の不確定な状況に繋がることを示す。
本稿では,様々なタスクや領域にまたがるアルゴリズムを公平に比較するためのアクティブラーニングフレームワークと,評価のための高速で実行可能なオラクルアルゴリズムを提供することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-11-30T08:54:32Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Active Teacher for Semi-Supervised Object Detection [80.10937030195228]
半教師対象検出(SSOD)のための能動教師と呼ばれる新しいアルゴリズムを提案する。
Active Teacherは、教師/学生のフレームワークを反復的なバージョンに拡張し、ラベルセットを部分的に段階的に拡張し、ラベルなし例の3つの重要な要素を評価する。
この設計により、Active Teacherは、擬似ラベルの品質を改善しながら、限られたラベル情報の効果を最大化することができる。
論文 参考訳(メタデータ) (2023-03-15T03:59:27Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Towards Few-Shot Fact-Checking via Perplexity [40.11397284006867]
そこで本研究では,言語モデルの強力な伝達学習能力をパープレキシティスコアで活用する新しい手法を提案する。
私たちの方法論は、F1-Macroメトリックの絶対10%以上のメジャークラスベースラインをすでに上回ることができます。
COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。
論文 参考訳(メタデータ) (2021-03-17T09:43:19Z) - Semi-supervised Active Learning for Instance Segmentation via Scoring
Predictions [25.408505612498423]
インスタンスセグメンテーションのための新規かつ原則的な半教師付きアクティブ学習フレームワークを提案する。
具体的には,クラス,バウンディングボックス,マスクの手がかりを明示的に評価するトリプレットスコア予測(tsp)という不確実性サンプリング戦略を提案する。
医用画像データセットを用いた結果から,提案手法が有意義な方法で利用可能なデータから知識を具現化することを示す。
論文 参考訳(メタデータ) (2020-12-09T02:36:52Z) - ALdataset: a benchmark for pool-based active learning [1.9308522511657449]
アクティブ・ラーニング(AL)は機械学習(ML)のサブフィールドであり、学習アルゴリズムは新しいデータポイントをラベル付けするためにユーザ/オーラルを対話的にクエリすることで、トレーニングサンプルの少ない精度で学習できる。
プールベースのALは多くのMLタスクにおいて、ラベルのないデータが豊富にあるが、ラベルを得るのは難しい。
提案手法は,最近提案された手法と古典的手法の両方で,様々なアクティブな学習戦略の実験結果を示し,その結果から洞察を得た。
論文 参考訳(メタデータ) (2020-10-16T04:37:29Z) - Multi-Task Incremental Learning for Object Detection [71.57155077119839]
マルチタスクは、知識と計算を共有しながら、複数のタスクを学習する。
古いデータにアクセスせずに漸進的に学習すると、過去の知識を壊滅的に忘れてしまう。
論文 参考訳(メタデータ) (2020-02-13T04:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。