論文の概要: Effective Proxy for Human Labeling: Ensemble Disagreement Scores in
Large Language Models for Industrial NLP
- arxiv url: http://arxiv.org/abs/2309.05619v2
- Date: Mon, 20 Nov 2023 01:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 18:11:28.519616
- Title: Effective Proxy for Human Labeling: Ensemble Disagreement Scores in
Large Language Models for Industrial NLP
- Title(参考訳): 人間ラベリングのための効果的なプロキシ--大規模nlp言語モデルにおけるアンサンブル不一致点
- Authors: Wei Du, Laksh Advani, Yashmeet Gambhir, Daniel J Perry, Prashant
Shiralkar, Zhengzheng Xing, and Aaron Colak
- Abstract要約: アンサンブル不一致スコアは、ゼロショット、少数ショット、微調整の設定において、言語モデルに対する人間のラベル付けのプロキシとして機能することを示す。
様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。
- 参考スコア(独自算出の注目度): 6.429005147017301
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated significant capability to
generalize across a large number of NLP tasks. For industry applications, it is
imperative to assess the performance of the LLM on unlabeled production data
from time to time to validate for a real-world setting. Human labeling to
assess model error requires considerable expense and time delay. Here we
demonstrate that ensemble disagreement scores work well as a proxy for human
labeling for language models in zero-shot, few-shot, and fine-tuned settings,
per our evaluation on keyphrase extraction (KPE) task. We measure fidelity of
the results by comparing to true error measured from human labeled ground
truth. We contrast with the alternative of using another LLM as a source of
machine labels, or silver labels. Results across various languages and domains
show disagreement scores provide a better estimation of model performance with
mean average error (MAE) as low as 0.4% and on average 13.8% better than using
silver labels.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多数のNLPタスクにまたがる一般化能力を示す。
業界アプリケーションでは、実世界の環境での検証のために、ラベルのない製品データに対するllmのパフォーマンスを評価することが不可欠である。
モデルエラーを評価するには、かなりのコストと時間を要する。
本稿では,kpe(keyphrase extraction)タスクの評価に基づいて,ゼロショット,少数ショット,微調整設定における言語モデルのヒューマンラベリングのプロキシとして,アンサンブル不一致スコアが有効であることを示す。
我々は、人間のラベル付き基底真理から測定した真の誤りと比較し、結果の忠実度を測定する。
他のllmをマシンラベルやシルバーラベルのソースとして使用する方法とは対照的です。
様々な言語やドメインにわたる結果から、平均誤差(MAE)が0.4%、平均13.8%のモデル性能が銀ラベルよりも優れているという評価結果が得られた。
関連論文リスト
- Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - Improving Classification Performance With Human Feedback: Label a few,
we label the rest [2.7386128680964408]
本稿では,連続フィードバックループがモデルをどのように洗練し,精度,リコール,精度を向上させるかを理解することに焦点を当てる。
このアプローチをFinancial Phrasebank, Banking, Craigslist, Trec, Amazon Reviewsのデータセットでベンチマークし、ラベル付き例をいくつか挙げただけで、ゼロショットの大規模言語モデルの精度を上回ります。
論文 参考訳(メタデータ) (2024-01-17T19:13:05Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Increasing Diversity While Maintaining Accuracy: Text Data Generation
with Large Language Models and Human Interventions [30.464763055981933]
大規模言語モデル(LLM)は、他のモデルのトレーニングや評価のためにテキストデータを生成するために用いられる。
LLMベースのテキストデータ生成において,高い多様性と精度を実現するために,人間とAIのパートナーシップを検討する。
論文 参考訳(メタデータ) (2023-06-07T04:27:09Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Zero-Resource Multi-Dialectal Arabic Natural Language Understanding [0.0]
本稿では,現代標準アラビア語(MSA)データのみに基づく事前学習言語モデルを微調整する場合に,Dialectal Arabic(DA)のゼロショット性能について検討する。
ラベルなしDAデータによる自己学習を提案し、名前付きエンティティ認識(NER)、POSタグ付け(POS)、SRD(Sarcasm Detection)のコンテキストに適用する。
その結果,未ラベルDAデータを用いた自己学習の有効性が示された。
論文 参考訳(メタデータ) (2021-04-14T02:29:27Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。