論文の概要: Have LLMs Made Active Learning Obsolete? Surveying the NLP Community
- arxiv url: http://arxiv.org/abs/2503.09701v1
- Date: Wed, 12 Mar 2025 18:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:47.956841
- Title: Have LLMs Made Active Learning Obsolete? Surveying the NLP Community
- Title(参考訳): LLMはアクティブ・ラーニング・オブソライトを作ったか? : NLPコミュニティの調査から
- Authors: Julia Romberg, Christopher Schröder, Julius Gonsior, Katrin Tomanek, Fredrik Olsson,
- Abstract要約: 教師付き学習は注釈付きデータに頼っている。
大規模言語モデルは、アクティブラーニングの有効性を推し進めてきたが、ほとんどショットラーニングやゼロショットラーニングのような手法も改善した。
アクティブな学習は時代遅れになったのだろうか?
- 参考スコア(独自算出の注目度): 7.99984266570379
- License:
- Abstract: Supervised learning relies on annotated data, which is expensive to obtain. A longstanding strategy to reduce annotation costs is active learning, an iterative process, in which a human annotates only data instances deemed informative by a model. Large language models (LLMs) have pushed the effectiveness of active learning, but have also improved methods such as few- or zero-shot learning, and text synthesis - thereby introducing potential alternatives. This raises the question: has active learning become obsolete? To answer this fully, we must look beyond literature to practical experiences. We conduct an online survey in the NLP community to collect previously intangible insights on the perceived relevance of data annotation, particularly focusing on active learning, including best practices, obstacles and expected future developments. Our findings show that annotated data remains a key factor, and active learning continues to be relevant. While the majority of active learning users find it effective, a comparison with a community survey from over a decade ago reveals persistent challenges: setup complexity, estimation of cost reduction, and tooling. We publish an anonymized version of the collected dataset
- Abstract(参考訳): 教師付き学習は注釈付きデータに頼っている。
アノテーションコストを削減するための長年の戦略はアクティブラーニング(能動的学習)である。
大規模言語モデル(LLM)は、アクティブラーニングの有効性を推し進める一方で、少数またはゼロショットラーニングやテキスト合成といった手法を改善し、潜在的な代替手段を導入している。
アクティブな学習は時代遅れになったのだろうか?
これを完全に答えるためには、文献を超えて実践的な経験を探さなければならない。
我々はNLPコミュニティでオンライン調査を行い、データアノテーションの認識された関連性に関する、特にベストプラクティスや障害、将来予想される発展を含むアクティブラーニングに焦点を当てた、これまで無形であった洞察を収集する。
以上の結果から,注釈付きデータは依然として重要な要素であり,アクティブな学習が引き続き重要であることが示唆された。
アクティブな学習ユーザーの大多数が効果的だと見ているが、10年以上前のコミュニティ調査と比較すると、複雑さのセットアップ、コスト削減の見積、ツーリングといった、永続的な課題が明らかになっている。
収集したデータセットの匿名化バージョンを公開します。
関連論文リスト
- C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Zero-shot Active Learning Using Self Supervised Learning [11.28415437676582]
我々は,反復的なプロセスを必要としないモデル非依存の新たなアクティブラーニング手法を提案する。
アクティブラーニングの課題に自己指導型学習機能を活用することを目的としている。
論文 参考訳(メタデータ) (2024-01-03T11:49:07Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - ALANNO: An Active Learning Annotation System for Mortals [0.0]
ALANNOは、アクティブラーニングを利用したNLPタスクのためのオープンソースのアノテーションシステムである。
アクティブな学習システムを展開する上での実践的な課題に焦点をあてる。
我々は、多くのアクティブな学習方法と基盤となる機械学習モデルで、このシステムをサポートしています。
論文 参考訳(メタデータ) (2022-11-11T14:19:41Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Active Learning for Argument Mining: A Practical Approach [2.535271349350579]
AURC(Argument Unit Recognition and Classification)の課題において,能動学習は,優れた深層学習能力を得るために必要な労力を大幅に削減することを示した。
Active Learningは、アノテーションの最も有益なサンプルをクエリすることで、機械学習モデルのトレーニングに必要なデータ量を削減します。
論文 参考訳(メタデータ) (2021-09-28T10:58:47Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Mind Your Outliers! Investigating the Negative Impact of Outliers on
Active Learning for Visual Question Answering [71.15403434929915]
視覚的質問応答のタスクにおいて、5つのモデルと4つのデータセットにまたがって、多種多様な能動的学習アプローチがランダム選択を上回りません。
アクティブな学習手法が好まれるが、モデルは学習に失敗する例の集まりである。
本研究では,アクティブ学習プールにおける集団外乱の減少に伴い,アクティブ学習サンプル効率が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-07-06T00:52:11Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。