論文の概要: Mark-Evaluate: Assessing Language Generation using Population Estimation
Methods
- arxiv url: http://arxiv.org/abs/2010.04606v1
- Date: Fri, 9 Oct 2020 14:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 03:53:28.179834
- Title: Mark-Evaluate: Assessing Language Generation using Population Estimation
Methods
- Title(参考訳): Mark-Evaluate: 人口推定法による言語生成の評価
- Authors: Gon\c{c}alo Mordido and Christoph Meinel
- Abstract要約: 本研究では,生態学で広く使用されている個体群推定法から得られた言語生成を評価するための指標群を提案する。
人工的な実験では、私たちの方法のファミリーは品質と多様性の低下に敏感です。
本手法は,いくつかの課題において,既存の指標よりも人的評価に高い相関性を示す。
- 参考スコア(独自算出の注目度): 6.307450687141434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a family of metrics to assess language generation derived from
population estimation methods widely used in ecology. More specifically, we use
mark-recapture and maximum-likelihood methods that have been applied over the
past several decades to estimate the size of closed populations in the wild. We
propose three novel metrics: ME$_\text{Petersen}$ and ME$_\text{CAPTURE}$,
which retrieve a single-valued assessment, and ME$_\text{Schnabel}$ which
returns a double-valued metric to assess the evaluation set in terms of quality
and diversity, separately. In synthetic experiments, our family of methods is
sensitive to drops in quality and diversity. Moreover, our methods show a
higher correlation to human evaluation than existing metrics on several
challenging tasks, namely unconditional language generation, machine
translation, and text summarization.
- Abstract(参考訳): 本研究では,生態学において広く用いられている集団推定法に基づく言語生成を評価するための指標群を提案する。
より具体的には、過去数十年にわたって適用されてきたマークキャプチャーと最大様相の手法を用いて、野生の閉鎖人口の大きさを推定する。
本稿では,1つの評価値を取得するME$_\text{Petersen}$とME$_\text{CAPTURE}$と2つの評価値を返すME$_\text{Schnabel}$という3つの新しい指標を提案する。
合成実験では、我々の手法は品質と多様性の低下に敏感である。
さらに,本手法は,非条件言語生成,機械翻訳,テキスト要約など,いくつかの課題における既存の指標よりも高い相関関係を示す。
関連論文リスト
- Towards Better Open-Ended Text Generation: A Multicriteria Evaluation Framework [0.1979158763744267]
オープンエンドテキスト生成は自然言語処理において顕著な課題となっている。
復号法は、いくつかの指標で優れ、他の指標では性能が劣ることが多い。
本稿では,この多基準フレームワークにおける新たなランキング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-24T11:32:01Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - A Multilingual Perspective Towards the Evaluation of Attribution Methods
in Natural Language Inference [28.949004915740776]
本稿では,自然言語推論(NLI)タスクに対する帰属的手法を評価するための多言語的手法を提案する。
まず,単語アライメントに基づいて忠実度を測定するための新たな言語間戦略を導入する。
次に、異なる出力機構と集約手法を考慮し、帰属手法の包括的な評価を行う。
論文 参考訳(メタデータ) (2022-04-11T22:11:05Z) - RoMe: A Robust Metric for Evaluating Natural Language Generation [7.594468763029502]
自然言語理解のいくつかの中核的な側面を取り入れた自動評価尺度を提案する。
提案する指標であるRoMeは,木編集距離と文法的受容性を組み合わせた意味的類似性などの言語機能に基づいて訓練されている。
実験結果から,RoMeはシステム生成文の評価における最先端指標よりも,人間の判断に強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T09:07:39Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。