論文の概要: Distribution Aware Metrics for Conditional Natural Language Generation
- arxiv url: http://arxiv.org/abs/2209.07518v1
- Date: Thu, 15 Sep 2022 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 11:53:33.430447
- Title: Distribution Aware Metrics for Conditional Natural Language Generation
- Title(参考訳): 条件付き自然言語生成のための分布認識メトリクス
- Authors: David M Chan, Yiming Ni, Austin Myers, Sudheendra Vijayanarasimhan,
David A Ross, John Canny
- Abstract要約: 既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 3.6350564275444173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional automated metrics for evaluating conditional natural language
generation use pairwise comparisons between a single generated text and the
best-matching gold-standard ground truth text. When multiple ground truths are
available, scores are aggregated using an average or max operation across
references. While this approach works well when diversity in the ground truth
data (i.e. dispersion of the distribution of conditional texts) can be ascribed
to noise, such as in automated speech recognition, it does not allow for robust
evaluation in the case where diversity in the ground truths represents signal
for the model. In this work we argue that existing metrics are not appropriate
for domains such as visual description or summarization where ground truths are
semantically diverse, and where the diversity in those captions captures useful
additional information about the context. We propose a novel paradigm for
multi-candidate evaluation of conditional language generation models, and a new
family of metrics that compare the distributions of reference and
model-generated caption sets using small sample sets of each. We demonstrate
the utility of our approach with a case study in visual description: where we
show that existing models optimize for single-description quality over
diversity, and gain some insights into how sampling methods and temperature
impact description quality and diversity.
- Abstract(参考訳): 条件付き自然言語生成を評価する従来の自動メトリクスは、1つの生成したテキストと最もマッチするゴールド標準の基底真理テキストをペアで比較します。
複数の基底真理が利用できる場合、スコアは参照の平均または最大演算を用いて集約される。
提案手法は, 音声の自動音声認識などにおいて, 基底真理データの多様性(条件文の分布の分散など)をノイズとみなすことができれば有効であるが, 基底真理の多様性がモデルの信号を表す場合には, 頑健な評価ができない。
本研究は,既存の指標が意味論的に多様であり,それらのキャプションの多様性が文脈に関する有用な付加情報を取得する領域において,視覚的記述や要約などの領域に適していないことを論じる。
本稿では,条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムと,参照とモデル生成のキャプションセットの分布を,それぞれ小さなサンプルセットを用いて比較する指標群を提案する。
既存のモデルが多様性よりも単一の記述品質に最適化していることを示し、サンプリング方法と温度が記述品質と多様性にどのように影響するかについての洞察を得る。
関連論文リスト
- Conditional Vendi Score: An Information-Theoretic Approach to Diversity Evaluation of Prompt-based Generative Models [15.40817940713399]
モデルの内部の多様性を定量化するために,$H(X|T)$に基づく条件付きVendiスコアを導入する。
テキスト条件付き生成モデルの条件-ベンダースコアと内部の多様性との相関を示すために,いくつかの数値実験を行った。
論文 参考訳(メタデータ) (2024-11-05T05:30:39Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Are we describing the same sound? An analysis of word embedding spaces
of expressive piano performance [4.867952721052875]
表現力のあるピアノ演奏の特徴の領域における不確実性について検討する。
5つの埋め込みモデルとその類似性構造を基礎的真理に対応するために検証する。
埋め込みモデルの品質は、このタスクに対して大きなばらつきを示している。
論文 参考訳(メタデータ) (2023-12-31T12:20:03Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics [14.624063829492764]
キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
論文 参考訳(メタデータ) (2022-05-12T17:55:08Z) - Disentangling Generative Factors in Natural Language with Discrete
Variational Autoencoders [0.0]
連続変数は、テキスト中のほとんどの生成因子が離散的であるという事実から、テキストデータの特徴をモデル化するのに理想的ではないかもしれない。
本稿では,言語特徴を離散変数としてモデル化し,不整合表現を学習するための変数間の独立性を促進する変分自動符号化手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T09:10:05Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。