論文の概要: Distribution Aware Metrics for Conditional Natural Language Generation
- arxiv url: http://arxiv.org/abs/2209.07518v1
- Date: Thu, 15 Sep 2022 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:53:33.430447
- Title: Distribution Aware Metrics for Conditional Natural Language Generation
- Title(参考訳): 条件付き自然言語生成のための分布認識メトリクス
- Authors: David M Chan, Yiming Ni, Austin Myers, Sudheendra Vijayanarasimhan,
David A Ross, John Canny
- Abstract要約: 既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 3.6350564275444173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional automated metrics for evaluating conditional natural language
generation use pairwise comparisons between a single generated text and the
best-matching gold-standard ground truth text. When multiple ground truths are
available, scores are aggregated using an average or max operation across
references. While this approach works well when diversity in the ground truth
data (i.e. dispersion of the distribution of conditional texts) can be ascribed
to noise, such as in automated speech recognition, it does not allow for robust
evaluation in the case where diversity in the ground truths represents signal
for the model. In this work we argue that existing metrics are not appropriate
for domains such as visual description or summarization where ground truths are
semantically diverse, and where the diversity in those captions captures useful
additional information about the context. We propose a novel paradigm for
multi-candidate evaluation of conditional language generation models, and a new
family of metrics that compare the distributions of reference and
model-generated caption sets using small sample sets of each. We demonstrate
the utility of our approach with a case study in visual description: where we
show that existing models optimize for single-description quality over
diversity, and gain some insights into how sampling methods and temperature
impact description quality and diversity.
- Abstract(参考訳): 条件付き自然言語生成を評価する従来の自動メトリクスは、1つの生成したテキストと最もマッチするゴールド標準の基底真理テキストをペアで比較します。
複数の基底真理が利用できる場合、スコアは参照の平均または最大演算を用いて集約される。
提案手法は, 音声の自動音声認識などにおいて, 基底真理データの多様性(条件文の分布の分散など)をノイズとみなすことができれば有効であるが, 基底真理の多様性がモデルの信号を表す場合には, 頑健な評価ができない。
本研究は,既存の指標が意味論的に多様であり,それらのキャプションの多様性が文脈に関する有用な付加情報を取得する領域において,視覚的記述や要約などの領域に適していないことを論じる。
本稿では,条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムと,参照とモデル生成のキャプションセットの分布を,それぞれ小さなサンプルセットを用いて比較する指標群を提案する。
既存のモデルが多様性よりも単一の記述品質に最適化していることを示し、サンプリング方法と温度が記述品質と多様性にどのように影響するかについての洞察を得る。
関連論文リスト
- Are we describing the same sound? An analysis of word embedding spaces
of expressive piano performance [4.867952721052875]
表現力のあるピアノ演奏の特徴の領域における不確実性について検討する。
5つの埋め込みモデルとその類似性構造を基礎的真理に対応するために検証する。
埋め込みモデルの品質は、このタスクに対して大きなばらつきを示している。
論文 参考訳(メタデータ) (2023-12-31T12:20:03Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics [14.624063829492764]
キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
論文 参考訳(メタデータ) (2022-05-12T17:55:08Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Generating Diverse Descriptions from Semantic Graphs [38.28044884015192]
アンデコーダモデルに潜在変数を組み込んだグラフ・トゥ・テキストモデルとそのアンサンブルでの使用について述べる。
我々は,様々な文の集合を生成するモデル群を,最先端のモデルに類似した品質を維持しながら示す。
我々は、WebNLGのデータセットを英語とロシア語で評価し、様々な文の集合を生成するモデルの集合を示すとともに、最先端のモデルに類似した品質を維持している。
論文 参考訳(メタデータ) (2021-08-12T11:00:09Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。