論文の概要: Evaluating the Evaluation of Diversity in Commonsense Generation
- arxiv url: http://arxiv.org/abs/2506.00514v1
- Date: Sat, 31 May 2025 11:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.650182
- Title: Evaluating the Evaluation of Diversity in Commonsense Generation
- Title(参考訳): コモンセンス生成における多様性の評価
- Authors: Tianhui Zhang, Bei Peng, Danushka Bollegala,
- Abstract要約: 我々は,コモンセンス生成のための多様性指標の体系的メタ評価を行う。
形式に基づく多様性指標は文集合の多様性を常に過大評価する傾向がある。
コンテンツに基づく多様性評価の指標が、フォームベースの指標よりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 28.654890118684957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In commonsense generation, given a set of input concepts, a model must generate a response that is not only commonsense bearing, but also capturing multiple diverse viewpoints. Numerous evaluation metrics based on form- and content-level overlap have been proposed in prior work for evaluating the diversity of a commonsense generation model. However, it remains unclear as to which metrics are best suited for evaluating the diversity in commonsense generation. To address this gap, we conduct a systematic meta-evaluation of diversity metrics for commonsense generation. We find that form-based diversity metrics tend to consistently overestimate the diversity in sentence sets, where even randomly generated sentences are assigned overly high diversity scores. We then use an Large Language Model (LLM) to create a novel dataset annotated for the diversity of sentences generated for a commonsense generation task, and use it to conduct a meta-evaluation of the existing diversity evaluation metrics. Our experimental results show that content-based diversity evaluation metrics consistently outperform the form-based counterparts, showing high correlations with the LLM-based ratings. We recommend that future work on commonsense generation should use content-based metrics for evaluating the diversity of their outputs.
- Abstract(参考訳): コモンセンス生成において、一組の入力概念が与えられた場合、モデルは、コモンセンスベアリングだけでなく、様々な視点を捉えた応答を生成する必要がある。
コンセンサス生成モデルの多様性を評価するために, フォームレベルの重複とコンテントレベルの重複に基づく多くの評価指標が提案されている。
しかし、どの指標がコモンセンス世代における多様性を評価するのに最も適しているかは定かではない。
このギャップに対処するため、我々はコモンセンス生成のための多様性指標の体系的メタ評価を行う。
形式に基づく多様性指標は、ランダムに生成された文でさえ過剰に高い多様性スコアが割り当てられる文集合の多様性を常に過大評価する傾向がある。
次に、Large Language Model(LLM)を用いて、コモンセンス生成タスクで生成された文の多様性に注釈を付けた新しいデータセットを作成し、既存の多様性評価指標のメタ評価を行う。
実験の結果,コンテンツに基づく多様性評価の指標は,書式による評価よりも常に優れており,LCMによる評価と高い相関性を示すことがわかった。
今後のコモンセンス生成における作業は、そのアウトプットの多様性を評価するためにコンテンツベースのメトリクスを使用するべきだと提案する。
関連論文リスト
- Improving Diversity of Demographic Representation in Large Language
Models via Collective-Critiques and Self-Voting [19.79214899011072]
本稿では,生成的大言語モデルにおける表現の多様性を形式化する。
評価データセットを提示し、人や文化軸に沿って生成された反応の多様性を測定する指標を提案する。
LLMは多様性の概念を理解し、その目標に対して自身の反応を推論し、批判することができる。
論文 参考訳(メタデータ) (2023-10-25T10:17:17Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Semantic Diversity in Dialogue with Natural Language Inference [19.74618235525502]
本稿では,対話生成における多様性向上に2つの重要な貢献をする。
まず、自然言語推論(NLI)を用いて、会話に対するモデル応答の集合のセマンティック多様性を測定する新しいメトリクスを提案する。
第2に,多様性閾値生成と呼ばれる新世代の手法を用いて,サンプル化された応答集合のセマンティック多様性を反復的に改善する方法を実証する。
論文 参考訳(メタデータ) (2022-05-03T13:56:32Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z) - Evaluating for Diversity in Question Generation over Text [5.369031521471668]
我々は,BLEU や METEOR などの一般的な評価指標は,参照問題固有の多様性のため,この課題には適さないと論じている。
本稿では,この課題に対する変分エンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:16:12Z) - On the Relation between Quality-Diversity Evaluation and
Distribution-Fitting Goal in Text Generation [86.11292297348622]
本研究では, 品質と多様性の線形結合が, 生成した分布と実分布との分岐距離を構成することを示す。
品質/多様性メトリックペアの代替としてCR/NRRを提案する。
論文 参考訳(メタデータ) (2020-07-03T04:06:59Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z) - Evaluating the Evaluation of Diversity in Natural Language Generation [43.05127848086264]
本稿では,自然言語生成システムにおける多様性指標を評価するためのフレームワークを提案する。
当社のフレームワークは,NLGシステムの改善に向けた重要なステップである,さまざまな多様性指標の理解を促進することができる。
論文 参考訳(メタデータ) (2020-04-06T20:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。