論文の概要: Select, Label, Evaluate: Active Testing in NLP
- arxiv url: http://arxiv.org/abs/2603.21840v1
- Date: Mon, 23 Mar 2026 11:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.634043
- Title: Select, Label, Evaluate: Active Testing in NLP
- Title(参考訳): Select, Label, Evaluate: NLPのアクティブテスト
- Authors: Antonio Purificato, Maria Sofia Bucarelli, Andrea Bacciu, Amin Mantrach, Fabrizio Silvestri,
- Abstract要約: アクティブテスト(Active Testing)は、アノテーションの最も有益なテストサンプルを選択するフレームワークである。
ラベル付け予算が与えられたら、モデルのパフォーマンスを最も見積もるサブセットを選択することを目的としています。
実験では、最大95%のアノテーションの削減を示し、パフォーマンス推定精度は、完全なテストセットから1%以内である。
- 参考スコア(独自算出の注目度): 13.476392417672812
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human annotation cost and time remain significant bottlenecks in Natural Language Processing (NLP), with test data annotation being particularly expensive due to the stringent requirement for low-error and high-quality labels necessary for reliable model evaluation. Traditional approaches require annotating entire test sets, leading to substantial resource requirements. Active Testing is a framework that selects the most informative test samples for annotation. Given a labeling budget, it aims to choose the subset that best estimates model performance while minimizing cost and human effort. In this work, we formalize Active Testing in NLP and we conduct an extensive benchmarking of existing approaches across 18 datasets and 4 embedding strategies spanning 4 different NLP tasks. The experiments show annotation reductions of up to 95%, with performance estimation accuracy difference from the full test set within 1%. Our analysis reveals variations in method effectiveness across different data characteristics and task types, with no single approach emerging as universally superior. Lastly, to address the limitation of requiring a predefined annotation budget in existing sample selection strategies, we introduce an adaptive stopping criterion that automatically determines the optimal number of samples.
- Abstract(参考訳): ヒューマンアノテーションのコストと時間は自然言語処理(NLP)において重要なボトルネックであり、信頼性の高いモデル評価に必要な低エラーラベルと高品質ラベルの厳格な要求のため、テストデータアノテーションは特に高価である。
従来のアプローチでは、テストセット全体をアノテートする必要があります。
アクティブテスト(Active Testing)は、アノテーションの最も有益なテストサンプルを選択するフレームワークである。
ラベル付け予算が与えられた場合、コストと人的労力を最小限に抑えながら、モデルのパフォーマンスを最も見積もるサブセットを選択することを目的としています。
本研究では,NLPにおけるアクティブテストの形式化と,4つの異なるNLPタスクにまたがる18のデータセットと4つの埋め込み戦略に対する既存アプローチの広範なベンチマークを行う。
実験の結果, アノテーションは最大95%まで低下し, 性能評価精度は全テストセットと1%以内であった。
分析の結果,データ特性やタスクタイプによってメソッドの有効性が変化していることが判明した。
最後に、既存のサンプル選択戦略における事前定義されたアノテーション予算の制限に対処するため、最適なサンプル数を自動的に決定する適応的な停止基準を導入する。
関連論文リスト
- Table Detection with Active Learning [1.9881456274482427]
アクティブラーニングは、最も有益なサンプルを選択することで、アノテーションコストを最小限に抑える、有望なソリューションである。
提案手法は,モデル一般化を改善する代表例の選択を保証する。
その結果,ALに基づくサンプル選択は,ランダムサンプリングよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-09-24T11:22:30Z) - Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [50.492124556982674]
本稿では,新しい選択型サンプル選択フレームワークを提案する。
個々のサンプル品質の評価から、異なるサンプルのコントリビューション値の比較へと焦点をシフトする。
われわれのアプローチをより大きな医療データセットで検証し、現実の応用における実用性を強調した。
論文 参考訳(メタデータ) (2025-03-04T07:32:41Z) - How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
我々は,人間の評価に最も有用なデータポイントを得るために,セレクタスイートを開発し,分析する。
本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。
特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文 参考訳(メタデータ) (2025-01-30T10:33:26Z) - Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection [1.4530711901349282]
TTA(Test-Time Adaptation)は、分散シフト下での機械学習モデルロバストネスの問題に対処するための有望な戦略として登場した。
我々は,サロゲートベースのhp選択戦略を用いて既存のTTA手法を評価し,その性能をより現実的に評価する。
論文 参考訳(メタデータ) (2024-07-19T11:58:30Z) - SLPT: Selective Labeling Meets Prompt Tuning on Label-Limited Lesion
Segmentation [57.37875162629063]
本稿では,限定ラベルの性能向上のために,選択的ラベリングと即時チューニングを組み合わせたフレームワークを提案する。
肝腫瘍の分節化について検討し, 従来の微調整を6%程度で達成した。
論文 参考訳(メタデータ) (2023-08-09T12:22:49Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor
Problem [8.281391209717105]
本稿では、意思決定者が過去のデータにアクセス可能な機能ベースのニュースベンダー問題について検討する。
そこで本研究では,スパースモデル,説明可能なモデル,およびアウト・オブ・サンプル性能の改善を目的とした特徴選択について検討する。
本稿では,2レベルプログラムに対する混合整数線形プログラムの修正について述べる。
論文 参考訳(メタデータ) (2022-09-12T08:52:26Z) - Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。
アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。
我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文 参考訳(メタデータ) (2021-03-09T10:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。