Fugu-MT 論文翻訳(概要): Human or Machine: Automating Human Likeliness Evaluation of NLG Texts

論文の概要: Human or Machine: Automating Human Likeliness Evaluation of NLG Texts

arxiv url: http://arxiv.org/abs/2006.03189v1
Date: Fri, 5 Jun 2020 00:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-25 02:41:24.846374
Title: Human or Machine: Automating Human Likeliness Evaluation of NLG Texts
Title（参考訳）: human or machine: nlgテキストのヒューマンライクライン評価の自動化
Authors: Erion \c{C}ano and Ond\v{r}ej Bojar
Abstract要約: そこで,本研究では,人間によって書かれたように思われる手法を用いて,出力サンプルのパーセンテージを示す,人間の類似度スコアを提案する。以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic evaluation of various text quality criteria produced by data-driven intelligent methods is very common and useful because it is cheap, fast, and usually yields repeatable results. In this paper, we present an attempt to automate the human likeliness evaluation of the output text samples coming from natural language generation methods used to solve several tasks. We propose to use a human likeliness score that shows the percentage of the output samples from a method that look as if they were written by a human. Instead of having human participants label or rate those samples, we completely automate the process by using a discrimination procedure based on large pretrained language models and their probability distributions. As follow up, we plan to perform an empirical analysis of human-written and machine-generated texts to find the optimal setup of this evaluation approach. A validation procedure involving human participants will also check how the automatic evaluation correlates with human judgments.
Abstract（参考訳）: データ駆動型知的手法によって生成される各種テキスト品質基準の自動評価は、安価で高速で、通常繰り返し可能な結果が得られるため、非常に一般的で有用である。本稿では,複数の課題を解決するための自然言語生成手法から出力されるテキストサンプルの評価を,人間に似せて自動化する試みについて述べる。そこで,本研究では,人間によって書かれたようにみえる手法を用いて,出力サンプルの比率を示す,人間の類似度スコアを提案する。これらのサンプルのラベル付けや評価を行う代わりに、大規模な事前学習言語モデルとそれらの確率分布に基づく識別手法を用いて、プロセスを完全に自動化する。以下に示すように、本評価手法の最適設定を見つけるために、人書きテキストと機械生成テキストの実証分析を行う。被験者を含む検証手順は、自動評価が人間の判断とどのように相関するかもチェックする。

関連論文リスト

Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
How to Select Datapoints for Efficient Human Evaluation of NLG Models? [57.60407340254572]
人間の評価に最も有用なデータポイントを得るためのセレクタ群を開発した。本研究では,自動測定値の分散に基づくセレクタ,モデル出力の多様性,項目応答理論がランダム選択より優れていることを示す。特に,情報源に基づく推定手法を導入し,情報源のテキストに基づいて人体評価に有用な項目を推定する。
論文参考訳（メタデータ） (2025-01-30T10:33:26Z)
Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文参考訳（メタデータ） (2024-03-17T07:34:12Z)
AutoEval Done Right: Using Synthetic Data for Model Evaluation [79.01454261157525]
この目的のために,効率的な統計的アルゴリズムを提案する。これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。
論文参考訳（メタデータ） (2024-03-09T02:47:11Z)
Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文参考訳（メタデータ） (2023-10-02T09:35:27Z)
Creating user stereotypes for persona development from qualitative data through semi-automatic subspace clustering [0.0]
本稿では,ペルソナ作成プロセスの一部を自動化するために,ユーザステレオタイプをモデル化する手法を提案する。結果は、人格設計者と人格設計者との違いが、異なる結果をもたらすことを示している。提案アルゴリズムはパラメータ入力に基づいて同様の結果を与えるが、より厳密で最適なクラスタを見つけることができる。
論文参考訳（メタデータ） (2023-06-26T09:49:51Z)
MISMATCH: Fine-grained Evaluation of Machine-generated Text with Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。 7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文参考訳（メタデータ） (2023-06-18T01:38:53Z)
Correction of Errors in Preference Ratings from Automated Metrics for Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文参考訳（メタデータ） (2023-06-06T17:09:29Z)
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文参考訳（メタデータ） (2023-04-04T14:14:16Z)
Dynamic Human Evaluation for Relative Model Comparisons [8.843915018287476]
本研究では,相対的な比較設定で生成した出力を評価する際に,人間のアノテーションの必要個数を動的に測定する手法を提案する。シミュレーションとクラウドソーシングのケーススタディにおいて,より優れたモデルを決定するための複数のラベル付け戦略と手法を評価するために,人間評価のエージェントベースフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-15T11:32:13Z)
TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。 TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文参考訳（メタデータ） (2021-03-21T17:20:38Z)
How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文参考訳（メタデータ） (2020-08-24T13:28:35Z)
Automating Text Naturalness Evaluation of NLG Systems [0.0]
本稿では,テキストの自然性評価を自動化する試みについて述べる。テキストサンプルのスコア付けやラベル付けに人間の参加者に頼る代わりに,プロセスの自動化を提案する。テキストの確率分数を分析し、生成的および識別的モデルのサイズの影響を観察する。
論文参考訳（メタデータ） (2020-06-23T18:48:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。