論文の概要: On the Relation between Quality-Diversity Evaluation and
Distribution-Fitting Goal in Text Generation
- arxiv url: http://arxiv.org/abs/2007.01488v2
- Date: Wed, 19 Aug 2020 03:37:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:17:56.407080
- Title: On the Relation between Quality-Diversity Evaluation and
Distribution-Fitting Goal in Text Generation
- Title(参考訳): テキスト生成における品質多様性評価と配電目標の関係について
- Authors: Jianing Li, Yanyan Lan, Jiafeng Guo, Xueqi Cheng
- Abstract要約: 本研究では, 品質と多様性の線形結合が, 生成した分布と実分布との分岐距離を構成することを示す。
品質/多様性メトリックペアの代替としてCR/NRRを提案する。
- 参考スコア(独自算出の注目度): 86.11292297348622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of text generation models is to fit the underlying real probability
distribution of text. For performance evaluation, quality and diversity metrics
are usually applied. However, it is still not clear to what extend can the
quality-diversity evaluation reflect the distribution-fitting goal. In this
paper, we try to reveal such relation in a theoretical approach. We prove that
under certain conditions, a linear combination of quality and diversity
constitutes a divergence metric between the generated distribution and the real
distribution. We also show that the commonly used BLEU/Self-BLEU metric pair
fails to match any divergence metric, thus propose CR/NRR as a substitute for
quality/diversity metric pair.
- Abstract(参考訳): テキスト生成モデルの目標は、テキストの実際の確率分布に適合することである。
パフォーマンス評価には、通常品質と多様性のメトリクスが適用される。
しかし, 品質・多様性評価が分布適合目標を反映しているのかは, いまだ明らかでない。
本稿では,理論的アプローチでそのような関係を明らかにする。
ある条件下では、品質と多様性の線形結合は、生成した分布と実分布の間の分岐計量を構成する。
また,一般的に用いられるbleu/self-bleu計量対は発散計量と一致しないため,cr/nrrを品質/多様性計量対の代用として提案する。
関連論文リスト
- Theoretical Aspects of Bias and Diversity in Minimum Bayes Risk Decoding [32.02732402635305]
最小ベイズリスク(MBR)復号化は、自動評価指標とモデル生成擬似参照を利用してこの問題を軽減することができる。
本研究では,生成仮説の予測品質における誤差を,実用機能と人的評価の密接度を反映するバイアスと,実用機能の評価品質の変動を表す多様性の2つの主要な要因に分解する。
論文 参考訳(メタデータ) (2024-10-19T07:32:10Z) - Probabilistic Precision and Recall Towards Reliable Evaluation of
Generative Models [7.770029179741429]
問題に対処する確率論的アプローチに基づいて,P-precision and P-recall (PP&PR)を提案する。
我々のPP&PRは、既存の指標よりも忠実度と多様性を比較するための信頼性の高い見積もりを提供することを示す。
論文 参考訳(メタデータ) (2023-09-04T13:19:17Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - On the Efficacy of Sampling Adapters [82.5941326570812]
サンプリングアダプタを理解するための統一的なフレームワークを提案する。
彼らが実施するシフトは、正確さとリコールの間のトレードオフと見なすことができる、と私たちは主張する。
いくつかの精度強調尺度は、サンプリングアダプタが真の分布とより整合した確率分布をもたらすことを確実に示している。
論文 参考訳(メタデータ) (2023-07-07T17:59:12Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - On the Interpretability and Significance of Bias Metrics in Texts: a
PMI-based Approach [3.2326259807823026]
我々は、テキスト中のバイアスを定量化するために、別のPMIベースのメトリクスを分析する。
これは条件付き確率の関数として表すことができ、単語共起の言葉で簡単に解釈できる。
論文 参考訳(メタデータ) (2021-04-13T19:34:17Z) - Distributional Random Forests: Heterogeneity Adjustment and Multivariate
Distributional Regression [0.8574682463936005]
共同条件分布に基づく多変量応答のための新しい森林構築法を提案する。
コードはPythonとRパッケージとして利用可能である。
論文 参考訳(メタデータ) (2020-05-29T09:05:00Z) - Reliable Fidelity and Diversity Metrics for Generative Models [30.941563781926202]
Fr'echet Inception Distance (FID)スコアは、Fr'echet Inception Distance(FID)スコアである。
最新の精度とリコール基準でさえまだ信頼性が低いことを示す。
上記の問題を解決するための密度とカバレッジの指標を提案する。
論文 参考訳(メタデータ) (2020-02-23T00:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。