論文の概要: Hardness of Samples Need to be Quantified for a Reliable Evaluation
System: Exploring Potential Opportunities with a New Task
- arxiv url: http://arxiv.org/abs/2210.07631v1
- Date: Fri, 14 Oct 2022 08:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:04:59.281465
- Title: Hardness of Samples Need to be Quantified for a Reliable Evaluation
System: Exploring Potential Opportunities with a New Task
- Title(参考訳): 信頼性評価システムにおけるサンプルの硬さの定量化:新しいタスクによる可能性の可能性を探る
- Authors: Swaroop Mishra, Anjana Arunkumar, Chris Bryan, Chitta Baral
- Abstract要約: ベンチマーク上のモデルの評価は、サンプル硬さの程度を知らずに信頼性が低い。
我々は,0から1のスコアのベンチマークにおいて,各未注釈サンプルの割り当てを必要とするData Scoringタスクを提案する。
- 参考スコア(独自算出の注目度): 24.6240575061124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of models on benchmarks is unreliable without knowing the degree
of sample hardness; this subsequently overestimates the capability of AI
systems and limits their adoption in real world applications. We propose a Data
Scoring task that requires assignment of each unannotated sample in a benchmark
a score between 0 to 1, where 0 signifies easy and 1 signifies hard. Use of
unannotated samples in our task design is inspired from humans who can
determine a question difficulty without knowing its correct answer. This also
rules out the use of methods involving model based supervision (since they
require sample annotations to get trained), eliminating potential biases
associated with models in deciding sample difficulty. We propose a method based
on Semantic Textual Similarity (STS) for this task; we validate our method by
showing that existing models are more accurate with respect to the easier
sample-chunks than with respect to the harder sample-chunks. Finally we
demonstrate five novel applications.
- Abstract(参考訳): ベンチマークにおけるモデルの評価は、サンプルのハードネスの程度を知らずに信頼できない。その結果、aiシステムの能力が過大評価され、現実のアプリケーションでの採用が制限される。
ベンチマークでは,各無注サンプルの割り当てを必要とするデータスコアタスクを提案する。0から1までのスコアでは,0は簡単,1は難しい。
タスクデザインにおける無意味なサンプルの使用は、正しい答えを知らずに質問の難しさを判断できる人間にインスパイアされている。
これはまた、(トレーニングを受けるためにサンプルアノテーションを必要とするため)モデルベースの監督を含むメソッドの使用を禁止し、サンプルの難易度を決定する際にモデルに関連する潜在的なバイアスを取り除く。
本研究では,本課題に対するセマンティックテキスト類似性(STS)に基づく手法を提案し,既存のモデルがより簡単なサンプルチャンクに対して,より難しいサンプルチャンクよりも精度が高いことを示す。
最後に5つの新しい応用例を示す。
関連論文リスト
- Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - Meta-Sampler: Almost-Universal yet Task-Oriented Sampling for Point
Clouds [46.33828400918886]
複数のタスクにまたがって、ほぼ普遍的なメタサンプルをトレーニングする方法を示します。
このメタサンプルは、異なるデータセットやネットワーク、あるいは異なるタスクに適用した場合、迅速に微調整できる。
論文 参考訳(メタデータ) (2022-03-30T02:21:34Z) - Non-generative Generalized Zero-shot Learning via Task-correlated
Disentanglement and Controllable Samples Synthesis [20.34562156468408]
これらの問題に対処する非生成モデルを提案する。
また、「Few-shot Seen Class and Zero-shot Unseen Class Learning」(FSZU)という新しいZSLタスクを定式化した。
論文 参考訳(メタデータ) (2022-03-10T12:32:26Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Density-Based Dynamic Curriculum Learning for Intent Detection [14.653917644725427]
本モデルでは, 固有ベクトル密度に応じてサンプルの難易度を定義する。
様々な難易度のサンプルに注意を払う動的カリキュラム学習戦略を適用した。
3つのオープンデータセットの実験により、提案した密度に基づくアルゴリズムが、単純かつ複雑なサンプルを著しく区別できることが確認された。
論文 参考訳(メタデータ) (2021-08-24T12:29:26Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - Identifying Wrongly Predicted Samples: A Method for Active Learning [6.976600214375139]
本稿では,不確実性を超えた単純なサンプル選択基準を提案する。
予測されたサンプルを正しく識別するために、最先端の結果とより良いレートを示す。
論文 参考訳(メタデータ) (2020-10-14T09:00:42Z) - A Provably Efficient Sample Collection Strategy for Reinforcement
Learning [123.69175280309226]
オンライン強化学習(RL)における課題の1つは、エージェントがその振る舞いを最適化するために、環境の探索とサンプルの活用をトレードオフする必要があることである。
1) 生成モデル(環境のスパースシミュレータなど)にアクセス可能な状態のサンプル数を規定する「対象別」アルゴリズム,2) 所定のサンプルをできるだけ早く生成する「対象別」サンプル収集。
論文 参考訳(メタデータ) (2020-07-13T15:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。