論文の概要: ILDAE: Instance-Level Difficulty Analysis of Evaluation Data
- arxiv url: http://arxiv.org/abs/2203.03073v2
- Date: Wed, 9 Mar 2022 01:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 12:21:41.374292
- Title: ILDAE: Instance-Level Difficulty Analysis of Evaluation Data
- Title(参考訳): ILDAE: 評価データのインスタンスレベル問題解析
- Authors: Neeraj Varshney, Swaroop Mishra, and Chitta Baral
- Abstract要約: 我々は,23データセットの大規模セットアップにおいて,ケースレベル評価データ解析(ILDAE)を行う。
1)計算コストと時間の削減を図り,2)誤例と自明な事例の修復による既存の評価データセットの品質向上,3)アプリケーション要件に基づいて最適なモデルを選択すること,4)将来のデータ生成を導くためのデータセット特性を解析すること,5)Domainのパフォーマンスを確実に推定すること,の5つの新しい応用を実証する。
- 参考スコア(独自算出の注目度): 22.043291547405545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge of questions' difficulty level helps a teacher in several ways,
such as estimating students' potential quickly by asking carefully selected
questions and improving quality of examination by modifying trivial and hard
questions. Can we extract such benefits of instance difficulty in NLP? To this
end, we conduct Instance-Level Difficulty Analysis of Evaluation data (ILDAE)
in a large-scale setup of 23 datasets and demonstrate its five novel
applications: 1) conducting efficient-yet-accurate evaluations with fewer
instances saving computational cost and time, 2) improving quality of existing
evaluation datasets by repairing erroneous and trivial instances, 3) selecting
the best model based on application requirements, 4) analyzing dataset
characteristics for guiding future data creation, 5) estimating Out-of-Domain
performance reliably. Comprehensive experiments for these applications result
in several interesting findings, such as evaluation using just 5% instances
(selected via ILDAE) achieves as high as 0.93 Kendall correlation with
evaluation using complete dataset and computing weighted accuracy using
difficulty scores leads to 5.2% higher correlation with Out-of-Domain
performance. We release the difficulty scores and hope our analyses and
findings will bring more attention to this important yet understudied field of
leveraging instance difficulty in evaluations.
- Abstract(参考訳): 質問の難易度に関する知識は、慎重に選択された質問をすることで、生徒のポテンシャルを素早く推定し、自明で難しい質問を修正して、試験の質を向上させるなど、教師の助けとなる。
nlpのインスタンス難易度というメリットを享受できるでしょうか?
この目的のために、23のデータセットを大規模にセットアップしたILDAE(Instance-Level Difficulty Analysis of Evaluation Data)を実施し、その5つの新しい応用を実証する。
1) 計算コストと時間を節約する少ないインスタンスで効率良く正確な評価を行うこと。
2)誤例及び自明例の修正による既存評価データセットの品質向上
3) アプリケーション要件に基づいて最適なモデルを選択する。
4)将来のデータ作成を導くためのデータセット特性の分析
5) ドメイン外のパフォーマンスを確実に見積もる。
これらのアプリケーションに対する総合的な実験は、5%のインスタンス(ILDAE経由で選択される)による評価が、完全なデータセットによる評価と最大0.93のKendall相関、難易度スコアを用いた計算重み付き精度などの興味深い結果をもたらす。
我々は、難易度スコアを公表し、分析と結果が、評価においてインスタンスの難易度を活用するこの重要かつ未検討の分野により多くの注意を向けることを期待する。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Scalable Learning of Item Response Theory Models [53.43355949923962]
項目応答理論(IRT)モデルは、分類データから、$m$テスト項目の遅延困難特性とともに、$n$試験の潜時能力を評価することを目的としている。
我々はこれらのモデルの類似性をロジスティック回帰に利用し、コアセットと呼ばれる小さな重み付き部分集合を用いて正確に近似することができる。
論文 参考訳(メタデータ) (2024-03-01T17:12:53Z) - Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Towards leveraging LLMs for Conditional QA [1.9649272351760063]
本研究では,条件付き質問応答の挑戦領域におけるLarge Language Models(LLM)の機能と限界について考察する。
これらの結果から,全ての入力コンテキストを完全にエンコードすることなく,微調整LDMがSOTA(State-of-the-art (SOTA))性能を上回ることが判明した。
これらのモデルは、抽出された質問応答において、SOTAを10ポイント以上遅れる問題に遭遇し、偽情報を注入するリスクを軽減する。
論文 参考訳(メタデータ) (2023-12-02T14:02:52Z) - Digital Twin-based Anomaly Detection with Curriculum Learning in
Cyber-physical Systems [6.588691825328981]
異常検出は、サイバー物理システムのセキュリティを確保するために重要である。
我々は、DigitalaL twin-based Anomaly deTecTion wIth Curriculum lEarning (LATTICE)を提案する。
LATTICEは、学習パラダイムを最適化するためにカリキュラム学習を導入することでATTAINを拡張している。
論文 参考訳(メタデータ) (2023-09-27T20:18:02Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset [29.866478682797513]
臨床ノートに基づく質問応答(QA)のための最初の大規模データセットである emrQA の詳細な分析を行う。
i) emrQA の回答は不完全であり,(ii) emrQA の質問はドメイン知識を使わずに答えられることが多い。
論文 参考訳(メタデータ) (2020-05-01T19:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。