論文の概要: Underreporting of errors in NLG output, and what to do about it
- arxiv url: http://arxiv.org/abs/2108.01182v1
- Date: Mon, 2 Aug 2021 21:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 21:22:16.497666
- Title: Underreporting of errors in NLG output, and what to do about it
- Title(参考訳): NLG出力におけるエラーのアンダーレポートとその対策
- Authors: Emiel van Miltenburg, Miruna-Adriana Clinciu, Ond\v{r}ej Du\v{s}ek,
Dimitra Gkatzia, Stephanie Inglis, Leo Lepp\"anen, Saad Mahamood, Emma
Manning, Stephanie Schoch, Craig Thomson, Luou Wen
- Abstract要約: 我々は,自然言語生成システムで発生するさまざまなエラーについて,厳密なアンダーレポーティングを観察する。
なぜなら、ミスはシステムがまだ改善されるべき場所を示す重要な指標だからです。
- 参考スコア(独自算出の注目度): 3.987756290570478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe a severe under-reporting of the different kinds of errors that
Natural Language Generation systems make. This is a problem, because mistakes
are an important indicator of where systems should still be improved. If
authors only report overall performance metrics, the research community is left
in the dark about the specific weaknesses that are exhibited by
`state-of-the-art' research. Next to quantifying the extent of error
under-reporting, this position paper provides recommendations for error
identification, analysis and reporting.
- Abstract(参考訳): 我々は,自然言語生成システムで発生するさまざまなエラーについて,厳密なアンダーレポーティングを観察する。
なぜなら、ミスはシステムがまだ改善されるべき場所を示す重要な指標だからです。
著者が全体的なパフォーマンス指標を報告していない場合、研究コミュニティは‘最先端’の研究によって示される特定の弱点について暗黙に残されている。
過誤報告の度合いを定量化するために,本研究では,誤りの特定,解析,報告を推奨する。
関連論文リスト
- Detecting Reference Errors in Scientific Literature with Large Language Models [0.552480439325792]
本研究は,OpenAI の GPT ファミリーにおいて,引用誤りを検出するための大規模言語モデルの能力を評価する。
その結果,大規模言語モデルでは文脈が限定され,微調整を行なわずに誤引用を検出できることがわかった。
論文 参考訳(メタデータ) (2024-11-09T07:30:38Z) - ReXErr: Synthesizing Clinically Meaningful Errors in Diagnostic Radiology Reports [1.9106067578277455]
胸部X線レポート内の代表的エラーを生成するために,大規模言語モデルを活用する手法であるReXErrを紹介する。
我々は、人間とAIが生成したレポートでよくある誤りを捉えるエラーカテゴリを開発した。
本手法は, 臨床応用可能性を維持しつつ, 多様な誤差を注入する新しいサンプリング手法を用いている。
論文 参考訳(メタデータ) (2024-09-17T01:42:39Z) - GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence [64.95492752484171]
GenAudit - 文書基底タスクの事実チェック LLM 応答を支援するためのツール。
これらのタスクを実行するためにモデルをトレーニングし、ユーザに対して推奨の編集とエビデンスを示すインタラクティブインターフェースを設計します。
システムによってほとんどのエラーがフラグ付けされていることを保証するため,精度への影響を最小限に抑えつつエラーリコールを増大させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:45:55Z) - xCOMET: Transparent Machine Translation Evaluation through Fine-grained
Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。
文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。
また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文 参考訳(メタデータ) (2023-10-16T15:03:14Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z) - SALTED: A Framework for SAlient Long-Tail Translation Error Detection [17.914521288548844]
本稿では,機械翻訳モデルの動作テストのための仕様ベースのフレームワークであるSALTEDを紹介する。
私たちのアプローチの核となるのは、ソース文とシステム出力の間のエラーをフラグする高精度検出器の開発です。
これらの検出器は,MTシステムにおける有意な長テール誤差の同定だけでなく,トレーニングデータの高精細フィルタリングにも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-20T06:45:07Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。