論文の概要: Reassessing Active Learning Adoption in Contemporary NLP: A Community Survey
- arxiv url: http://arxiv.org/abs/2503.09701v3
- Date: Sat, 18 Oct 2025 20:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:04.526246
- Title: Reassessing Active Learning Adoption in Contemporary NLP: A Community Survey
- Title(参考訳): 現代NLPにおけるアクティブラーニング導入の再評価 : コミュニティ調査
- Authors: Julia Romberg, Christopher Schröder, Julius Gonsior, Katrin Tomanek, Fredrik Olsson,
- Abstract要約: 教師付き学習は、通常時間がかかり高価であるデータアノテーションに依存している。
アノテーションコストを削減するための長年の戦略はアクティブラーニングであり、人間はモデルによって情報化されていると考えられるデータインスタンスにのみ注釈を付ける。
我々は,NLPコミュニティにおけるオンライン調査を実施し,現在実施されている実践,アプリケーションにおける共通障害,アクティブラーニングの今後の展望について,これまで無形であった知見を収集する。
- 参考スコア(独自算出の注目度): 7.428771158422113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning relies on data annotation which usually is time-consuming and therefore expensive. A longstanding strategy to reduce annotation costs is active learning, an iterative process, in which a human annotates only data instances deemed informative by a model. Research in active learning has made considerable progress, especially with the rise of large language models (LLMs). However, we still know little about how these remarkable advances have translated into real-world applications, or contributed to removing key barriers to active learning adoption. To fill in this gap, we conduct an online survey in the NLP community to collect previously intangible insights on current implementation practices, common obstacles in application, and future prospects in active learning. We also reassess the perceived relevance of data annotation and active learning as fundamental assumptions. Our findings show that data annotation is expected to remain important and active learning to stay relevant while benefiting from LLMs. Consistent with a community survey from over 15 years ago, three key challenges yet persist -- setup complexity, uncertain cost reduction, and tooling -- for which we propose alleviation strategies. We publish an anonymized version of the dataset.
- Abstract(参考訳): 教師付き学習は、通常時間がかかり高価であるデータアノテーションに依存している。
アノテーションコストを削減するための長年の戦略はアクティブラーニング(能動的学習)である。
活発な学習の研究は、特に大規模言語モデル(LLM)の台頭とともに、かなりの進歩を遂げている。
しかし、これらの顕著な進歩が現実世界のアプリケーションにどのように変換されたか、あるいはアクティブな学習の採用に対する重要な障壁を取り除くことに寄与したかについては、まだほとんど分かっていません。
このギャップを埋めるために、私たちはNLPコミュニティでオンライン調査を行い、現在の実装プラクティス、アプリケーションにおける一般的な障害、そしてアクティブラーニングの今後の展望について、これまで無形であった知見を収集します。
また、基本前提として、データアノテーションとアクティブラーニングの認識の関連性を再評価する。
以上の結果から,LLMの恩恵を受けながらデータアノテーションが重要であり,活発な学習が継続されることが示唆された。
15年以上前のコミュニティの調査でも,3つの重要な課題 – セットアップの複雑さ,不確実なコスト削減,ツーリング – が続いていて,緩和戦略を提案しています。
データセットの匿名化バージョンを公開しています。
関連論文リスト
- Does Machine Unlearning Truly Remove Model Knowledge? A Framework for Auditing Unlearning in LLMs [58.24692529185971]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - Active Learning Methods for Efficient Data Utilization and Model Performance Enhancement [5.4044723481768235]
本稿では,より少ないラベル付き例を用いてモデルの性能向上を支援する機械学習の戦略である,アクティブラーニング(AL)の概要を紹介する。
ALの基本概念を導入し、コンピュータビジョン、自然言語処理、トランスファーラーニング、実世界のアプリケーションなど、様々な分野でどのように使われているかについて議論する。
論文 参考訳(メタデータ) (2025-04-21T20:42:13Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Zero-shot Active Learning Using Self Supervised Learning [11.28415437676582]
我々は,反復的なプロセスを必要としないモデル非依存の新たなアクティブラーニング手法を提案する。
アクティブラーニングの課題に自己指導型学習機能を活用することを目的としている。
論文 参考訳(メタデータ) (2024-01-03T11:49:07Z) - Learning to Learn for Few-shot Continual Active Learning [9.283518682371756]
継続的な学習は、新しいドメインで可塑性を示しながら、以前見たタスクを解く際の安定性を確保するために努力する。
連続学習の最近の進歩は、特にNLPドメインにおいて、主に教師付き学習環境に限られている。
我々はメタラーニングを活用し,メタコンチネンタルアクティブラーニングと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T05:22:11Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - ALANNO: An Active Learning Annotation System for Mortals [0.0]
ALANNOは、アクティブラーニングを利用したNLPタスクのためのオープンソースのアノテーションシステムである。
アクティブな学習システムを展開する上での実践的な課題に焦点をあてる。
我々は、多くのアクティブな学習方法と基盤となる機械学習モデルで、このシステムをサポートしています。
論文 参考訳(メタデータ) (2022-11-11T14:19:41Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Active Learning for Argument Mining: A Practical Approach [2.535271349350579]
AURC(Argument Unit Recognition and Classification)の課題において,能動学習は,優れた深層学習能力を得るために必要な労力を大幅に削減することを示した。
Active Learningは、アノテーションの最も有益なサンプルをクエリすることで、機械学習モデルのトレーニングに必要なデータ量を削減します。
論文 参考訳(メタデータ) (2021-09-28T10:58:47Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。