論文の概要: Problems and Countermeasures in Natural Language Processing Evaluation
- arxiv url: http://arxiv.org/abs/2104.09712v1
- Date: Tue, 20 Apr 2021 01:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 01:53:20.014210
- Title: Problems and Countermeasures in Natural Language Processing Evaluation
- Title(参考訳): 自然言語処理評価における課題と対策
- Authors: Qingxiu Dong, Zhifang Sui, Weidong Zhan and Baobao Chang
- Abstract要約: 本稿では,主要な自然言語評価の課題と課題を分類し,要約する。
人間のような機械言語能力評価の概念を提唱する。
- 参考スコア(独自算出の注目度): 22.681519065447645
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Evaluation in natural language processing guides and promotes research on
models and methods. In recent years, new evalua-tion data sets and evaluation
tasks have been continuously proposed. At the same time, a series of problems
exposed by ex-isting evaluation have also restricted the progress of natural
language processing technology. Starting from the concept, com-position,
development and meaning of natural language evaluation, this article classifies
and summarizes the tasks and char-acteristics of mainstream natural language
evaluation, and then summarizes the problems and causes of natural language
pro-cessing evaluation. Finally, this article refers to the human language
ability evaluation standard, puts forward the concept of human-like machine
language ability evaluation, and proposes a series of basic principles and
implementation ideas for hu-man-like machine language ability evaluation from
the three aspects of reliability, difficulty and validity.
- Abstract(参考訳): 自然言語処理ガイドの評価とモデルと手法の研究を促進する。
近年,新たな評価データセットや評価タスクが提案されている。
同時に,既存の評価によって明らかになった問題も,自然言語処理技術の進歩を阻害している。
本稿では, 自然言語評価の概念, 構成, 開発, 意味から, 主流な自然言語評価の課題と課題を分類し, 要約し, その問題と原因を要約する。
最後に,ヒューマン・ランゲージ能力評価基準について言及し,ヒューマン・ライク・マシン言語能力評価の概念を概説するとともに,信頼性,難易度,妥当性の3つの側面から,ヒューマン的マシン言語能力評価の基本原則と実装概念を提案する。
関連論文リスト
- ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Language Models as Inductive Reasoners [125.99461874008703]
本稿では,帰納的推論のための新しいパラダイム(タスク)を提案し,自然言語の事実から自然言語規則を誘導する。
タスクのための1.2kルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。
我々は、事前訓練された言語モデルが自然言語の事実から自然言語規則をいかに誘導できるかを、初めてかつ包括的な分析を行う。
論文 参考訳(メタデータ) (2022-12-21T11:12:14Z) - Naturalness Evaluation of Natural Language Generation in Task-oriented
Dialogues using BERT [6.1478669848771546]
本稿では,対話システムにおける自然言語生成の自然性を評価する手法を提案する。
BERTモデルの微調整により,提案した自然度評価法は,ロバストな結果を示し,ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-07T08:40:14Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z) - Estimating Subjective Crowd-Evaluations as an Additional Objective to
Improve Natural Language Generation [0.0]
我々は6つの異なる言語生成モデルについて,群衆による対話コーパスを用いて微調整を行う。
これらのモデルのうち2つはマルチタスク学習を取り入れ、明確な学習目標の一部としてラインの主観評価を使用する。
生成した対話行の人間による評価では、マルチタスクモデルによって生成された発話が主観的に最も典型的であり、最も会話を前進させ、最も攻撃的であることを明らかにした。
論文 参考訳(メタデータ) (2021-04-12T06:33:16Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。