論文の概要: AutoNLU: Detecting, root-causing, and fixing NLU model errors
- arxiv url: http://arxiv.org/abs/2110.06384v1
- Date: Tue, 12 Oct 2021 22:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 05:03:21.164091
- Title: AutoNLU: Detecting, root-causing, and fixing NLU model errors
- Title(参考訳): AutoNLU: NLUモデルエラーの検出、ルートキャスティング、修正
- Authors: Pooja Sethi, Denis Savenkov, Forough Arabshahi, Jack Goetz, Micaela
Tolliver, Nicolas Scheffer, Ilknur Kabul, Yue Liu, Ahmed Aly
- Abstract要約: 我々は,NLUの品質改善プロセスのスケールアップを目的として,AutoNLUというシステムを提案する。
検出、帰属、モデルエラーの修正という3つの重要なステップに自動化を追加する。
AutoNLUツールは、言語学者に対して、以前の手作業のプロセスよりも10倍のセマンティック解析バグを修正し、すべての特定バグの65%を自動修正する権限を与えた。
- 参考スコア(独自算出の注目度): 9.245554078728468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the quality of Natural Language Understanding (NLU) models, and
more specifically, task-oriented semantic parsing models, in production is a
cumbersome task. In this work, we present a system called AutoNLU, which we
designed to scale the NLU quality improvement process. It adds automation to
three key steps: detection, attribution, and correction of model errors, i.e.,
bugs. We detected four times more failed tasks than with random sampling,
finding that even a simple active learning sampling method on an uncalibrated
model is surprisingly effective for this purpose. The AutoNLU tool empowered
linguists to fix ten times more semantic parsing bugs than with prior manual
processes, auto-correcting 65% of all identified bugs.
- Abstract(参考訳): 自然言語理解(NLU)モデルの品質、より具体的には、本番環境でのタスク指向のセマンティックパーシングモデルの改善は、面倒な作業です。
本研究では,NLUの品質改善プロセスのスケールアップを目的としたAutoNLUシステムを提案する。
検出、帰属、モデルエラーの修正、すなわちバグの3つの重要なステップに自動化を追加する。
ランダムサンプリングよりも4倍のタスクが検出された結果,非校正モデル上での単純な能動的学習サンプリング手法でさえ,驚くほど効果的であることが判明した。
AutoNLUツールにより、言語学者は、以前の手作業のプロセスよりも10倍のセマンティック解析バグを修正でき、すべての特定バグの65%を自動修正できる。
関連論文リスト
- Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z) - Entailment as Robust Self-Learner [14.86757876218415]
我々は、複数の異なるNLUタスクを文脈的エンターテイメントとして定式化するプロンプト戦略を設計する。
自己学習における擬似ラベル品質向上のための簡易擬似ラベル編集(SimPLE)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:41:23Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。
近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文 参考訳(メタデータ) (2021-11-04T00:43:15Z) - Error Detection in Large-Scale Natural Language Understanding Systems
Using Transformer Models [0.0]
Alexa、Siri、Cortana、Google Assistantといった大規模な会話アシスタントは、ドメイン、インテント、名前付きエンティティ認識の複数のモデルを使用して、発話毎に処理する。
オフラインのTransformerモデルを用いて、ドメイン分類エラーを検出する。
そこで我々は,RoBERTaモデルから生成した発話エンコーディングと生産システムのNbest仮説を組み合わせた。
論文 参考訳(メタデータ) (2021-09-04T00:10:48Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。