論文の概要: Towards a Diagnostic and Predictive Evaluation Methodology for Sequence Labeling Tasks
- arxiv url: http://arxiv.org/abs/2602.12759v1
- Date: Fri, 13 Feb 2026 09:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.910922
- Title: Towards a Diagnostic and Predictive Evaluation Methodology for Sequence Labeling Tasks
- Title(参考訳): シーケンスラベリングタスクの診断・予測評価手法
- Authors: Elena Alvarez-Mellado, Julio Gonzalo,
- Abstract要約: 本稿では,誤り解析に基づくシーケンスラベリングタスクの評価手法を提案する。
本手法は, 外部データセットのモデル性能を0.85の正負相関で予測する。
- 参考スコア(独自算出の注目度): 3.423332499970556
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Standard evaluation in NLP typically indicates that system A is better on average than system B, but it provides little info on how to improve performance and, what is worse, it should not come as a surprise if B ends up being better than A on outside data. We propose an evaluation methodology for sequence labeling tasks grounded on error analysis that provides both quantitative and qualitative information on where systems must be improved and predicts how models will perform on a different distribution. The key is to create test sets that, contrary to common practice, do not rely on gathering large amounts of real-world in-distribution scraped data, but consists in handcrafting a small set of linguistically motivated examples that exhaustively cover the range of span attributes (such as shape, length, casing, sentence position, etc.) a system may encounter in the wild. We demonstrate this methodology on a benchmark for anglicism identification in Spanish. Our methodology provides results that are diagnostic (because they help identify systematic weaknesses in performance), actionable (because they can inform which model is better suited for a given scenario) and predictive: our method predicts model performance on external datasets with a median correlation of 0.85.
- Abstract(参考訳): NLPの標準的な評価では、システムAはシステムBよりも平均的に優れているが、パフォーマンスを改善する方法についてはほとんど情報を提供していない。
本稿では,システムの改善点に関する定量的および定性的な情報を提供し,異なる分布でモデルがどのように動作するかを予測する,誤り解析に基づくシーケンスラベルタスクの評価手法を提案する。
鍵となるのは、一般的な慣行とは対照的に、大量の現実世界の散逸したデータを集めることに依存しないテストセットを作成することであるが、それは、システムが野生で遭遇する可能性のあるスパン属性(形状、長さ、ケーシング、文の位置など)の範囲を徹底的にカバーする、言語的に動機づけられた少数の例を手作りすることである。
この手法をスペイン語のアングリシズム識別のためのベンチマークで実証する。
我々の手法は、診断可能な結果(性能の体系的な弱点を特定するのに役立つため)、動作可能な結果(どのモデルが与えられたシナリオに適しているかを判断できるため)、予測可能な結果を提供する。
関連論文リスト
- A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Meta-learning for Positive-unlabeled Classification [40.11462237689747]
提案手法は,モデルがPUデータに適用された後のテスト分類リスクを最小限に抑える。
この方法は各インスタンスをニューラルネットワークを使ってタスク固有の空間に埋め込む。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-06T01:50:01Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。