論文の概要: Human or Machine: Automating Human Likeliness Evaluation of NLG Texts
- arxiv url: http://arxiv.org/abs/2006.03189v1
- Date: Fri, 5 Jun 2020 00:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 02:41:24.846374
- Title: Human or Machine: Automating Human Likeliness Evaluation of NLG Texts
- Title(参考訳): human or machine: nlgテキストのヒューマンライクライン評価の自動化
- Authors: Erion \c{C}ano and Ond\v{r}ej Bojar
- Abstract要約: そこで,本研究では,人間によって書かれたように思われる手法を用いて,出力サンプルのパーセンテージを示す,人間の類似度スコアを提案する。
以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic evaluation of various text quality criteria produced by data-driven
intelligent methods is very common and useful because it is cheap, fast, and
usually yields repeatable results. In this paper, we present an attempt to
automate the human likeliness evaluation of the output text samples coming from
natural language generation methods used to solve several tasks. We propose to
use a human likeliness score that shows the percentage of the output samples
from a method that look as if they were written by a human. Instead of having
human participants label or rate those samples, we completely automate the
process by using a discrimination procedure based on large pretrained language
models and their probability distributions. As follow up, we plan to perform an
empirical analysis of human-written and machine-generated texts to find the
optimal setup of this evaluation approach. A validation procedure involving
human participants will also check how the automatic evaluation correlates with
human judgments.
- Abstract(参考訳): データ駆動型知的手法によって生成される各種テキスト品質基準の自動評価は、安価で高速で、通常繰り返し可能な結果が得られるため、非常に一般的で有用である。
本稿では,複数の課題を解決するための自然言語生成手法から出力されるテキストサンプルの評価を,人間に似せて自動化する試みについて述べる。
そこで,本研究では,人間によって書かれたようにみえる手法を用いて,出力サンプルの比率を示す,人間の類似度スコアを提案する。
これらのサンプルのラベル付けや評価を行う代わりに、大規模な事前学習言語モデルとそれらの確率分布に基づく識別手法を用いて、プロセスを完全に自動化する。
以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
被験者を含む検証手順は、自動評価が人間の判断とどのように相関するかもチェックする。
関連論文リスト
- Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - AutoEval Done Right: Using Synthetic Data for Model Evaluation [79.01454261157525]
この目的のために,効率的な統計的アルゴリズムを提案する。
これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
論文 参考訳(メタデータ) (2024-03-09T02:47:11Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Creating user stereotypes for persona development from qualitative data
through semi-automatic subspace clustering [0.0]
本稿では,ペルソナ作成プロセスの一部を自動化するために,ユーザステレオタイプをモデル化する手法を提案する。
結果は、人格設計者と人格設計者との違いが、異なる結果をもたらすことを示している。
提案アルゴリズムはパラメータ入力に基づいて同様の結果を与えるが、より厳密で最適なクラスタを見つけることができる。
論文 参考訳(メタデータ) (2023-06-26T09:49:51Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z) - Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。
シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-15T11:32:13Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z) - Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。
テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。
テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文 参考訳(メタデータ) (2020-06-23T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。