Fugu-MT 論文翻訳(概要): ILDAE: Instance-Level Difficulty Analysis of Evaluation Data

論文の概要: ILDAE: Instance-Level Difficulty Analysis of Evaluation Data

arxiv url: http://arxiv.org/abs/2203.03073v2
Date: Wed, 9 Mar 2022 01:55:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-10 12:21:41.374292
Title: ILDAE: Instance-Level Difficulty Analysis of Evaluation Data
Title（参考訳）: ILDAE: 評価データのインスタンスレベル問題解析
Authors: Neeraj Varshney, Swaroop Mishra, and Chitta Baral
Abstract要約: 我々は,23データセットの大規模セットアップにおいて,ケースレベル評価データ解析(ILDAE)を行う。 1)計算コストと時間の削減を図り,2)誤例と自明な事例の修復による既存の評価データセットの品質向上,3)アプリケーション要件に基づいて最適なモデルを選択すること,4)将来のデータ生成を導くためのデータセット特性を解析すること,5)Domainのパフォーマンスを確実に推定すること,の5つの新しい応用を実証する。
参考スコア（独自算出の注目度）: 22.043291547405545
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Knowledge of questions' difficulty level helps a teacher in several ways, such as estimating students' potential quickly by asking carefully selected questions and improving quality of examination by modifying trivial and hard questions. Can we extract such benefits of instance difficulty in NLP? To this end, we conduct Instance-Level Difficulty Analysis of Evaluation data (ILDAE) in a large-scale setup of 23 datasets and demonstrate its five novel applications: 1) conducting efficient-yet-accurate evaluations with fewer instances saving computational cost and time, 2) improving quality of existing evaluation datasets by repairing erroneous and trivial instances, 3) selecting the best model based on application requirements, 4) analyzing dataset characteristics for guiding future data creation, 5) estimating Out-of-Domain performance reliably. Comprehensive experiments for these applications result in several interesting findings, such as evaluation using just 5% instances (selected via ILDAE) achieves as high as 0.93 Kendall correlation with evaluation using complete dataset and computing weighted accuracy using difficulty scores leads to 5.2% higher correlation with Out-of-Domain performance. We release the difficulty scores and hope our analyses and findings will bring more attention to this important yet understudied field of leveraging instance difficulty in evaluations.
Abstract（参考訳）: 質問の難易度に関する知識は、慎重に選択された質問をすることで、生徒のポテンシャルを素早く推定し、自明で難しい質問を修正して、試験の質を向上させるなど、教師の助けとなる。 nlpのインスタンス難易度というメリットを享受できるでしょうか? この目的のために、23のデータセットを大規模にセットアップしたILDAE(Instance-Level Difficulty Analysis of Evaluation Data)を実施し、その5つの新しい応用を実証する。 1) 計算コストと時間を節約する少ないインスタンスで効率良く正確な評価を行うこと。 2)誤例及び自明例の修正による既存評価データセットの品質向上 3) アプリケーション要件に基づいて最適なモデルを選択する。 4)将来のデータ作成を導くためのデータセット特性の分析 5) ドメイン外のパフォーマンスを確実に見積もる。これらのアプリケーションに対する総合的な実験は、5%のインスタンス(ILDAE経由で選択される)による評価が、完全なデータセットによる評価と最大0.93のKendall相関、難易度スコアを用いた計算重み付き精度などの興味深い結果をもたらす。我々は、難易度スコアを公表し、分析と結果が、評価においてインスタンスの難易度を活用するこの重要かつ未検討の分野により多くの注意を向けることを期待する。

関連論文リスト

Class-Proportional Coreset Selection for Difficulty-Separable Data [6.999279165862482]
ネットワーク侵入検出や医用画像などの領域では,データのクラスタ化が困難であることが多い。これをクラス微分可分性として定式化し、クラス微分可分性係数を導入する。結果から,クラス差分性を明示的にモデル化することで,より効率的で堅牢で一般化可能なデータプルーニングが実現されることが示された。
論文参考訳（メタデータ） (2025-07-15T01:43:32Z)
The role of data partitioning on the performance of EEG-based deep learning models in supervised cross-subject analysis: a preliminary study [37.69303106863453]
ディープラーニングは、非常に非線形なパターンを効果的に発見することによって、脳波(EEG)データの解析を進めています。ドメイン内に適切なデータパーティショニングとクロスバリデーションのための包括的なガイドラインは存在しない。本稿では,脳波深層学習モデルの評価におけるデータ分割とクロスバリデーションの役割について,徹底的に検討する。
論文参考訳（メタデータ） (2025-05-19T12:05:28Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
R+R: Security Vulnerability Dataset Quality Is Critical [0.6906005491572401]
多くの研究では、高い複製率、疑わしいラベルの精度、不完全なサンプルに悩まされているデータセットを使用している。その結果, 試料の56%が不正なラベルであり, 44%が不完全であり, 31%のみが正確で完全であった。我々は,大規模な重複バグフィックスコーパスを用いた転送学習を用いて,高品質な事前学習データが大きいと,これらのモデルの性能が向上することを示す。
論文参考訳（メタデータ） (2025-03-09T01:49:30Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文参考訳（メタデータ） (2024-08-31T11:59:42Z)
Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。 ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文参考訳（メタデータ） (2024-06-26T05:30:21Z)
Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文参考訳（メタデータ） (2024-06-12T13:39:32Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。我々は、ReasonEvalが人間のラベル付きデータセット上で最先端のパフォーマンスを達成することを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文参考訳（メタデータ） (2023-06-07T17:47:03Z)
Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-12-20T19:29:37Z)
Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文参考訳（メタデータ） (2021-04-16T22:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。