論文の概要: Just Rank: Rethinking Evaluation with Word and Sentence Similarities
- arxiv url: http://arxiv.org/abs/2203.02679v1
- Date: Sat, 5 Mar 2022 08:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:37:55.459782
- Title: Just Rank: Rethinking Evaluation with Word and Sentence Similarities
- Title(参考訳): Just Rank: 単語と文の類似性による評価の再考
- Authors: Bin Wang, C.-C. Jay Kuo, Haizhou Li
- Abstract要約: 埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
- 参考スコア(独自算出の注目度): 105.5541653811528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word and sentence embeddings are useful feature representations in natural
language processing. However, intrinsic evaluation for embeddings lags far
behind, and there has been no significant update since the past decade. Word
and sentence similarity tasks have become the de facto evaluation method. It
leads models to overfit to such evaluations, negatively impacting embedding
models' development. This paper first points out the problems using semantic
similarity as the gold standard for word and sentence embedding evaluations.
Further, we propose a new intrinsic evaluation method called EvalRank, which
shows a much stronger correlation with downstream tasks. Extensive experiments
are conducted based on 60+ models and popular datasets to certify our
judgments. Finally, the practical evaluation toolkit is released for future
benchmarking purposes.
- Abstract(参考訳): 単語と文の埋め込みは自然言語処理において有用な特徴表現である。
しかし、組み込みの本質的な評価は遅れており、過去10年間、重要な更新は行われていない。
単語と文の類似性タスクがデファクト評価手法となっている。
これはモデルをそのような評価に過度に適合させ、埋め込みモデルの開発に悪影響を及ぼす。
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
さらに,下流タスクとより強い相関を示すevalrankと呼ばれる新しい本質的評価手法を提案する。
大規模な実験は60以上のモデルと一般的なデータセットに基づいて行われ、判断を認証する。
最後に、将来のベンチマークのために実用的な評価ツールキットがリリースされる。
関連論文リスト
- Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [55.66090768926881]
本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。
本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。
トリックテストとRUTEd評価の対応は見つからなかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - Hi Model, generating 'nice' instead of 'good' is not as bad as
generating 'rice'! Towards Context and Semantic Infused Dialogue Generation
Loss Function and Evaluation Metric [49.0231934996271]
本稿では,Semantic Infused Contextualized diaLogue (SemTextualLogue) ロス関数を提案する。
また、文脈関連性と意味的適切性の両方を取り入れた、Dialuationと呼ばれる新しい評価基準を定式化した。
論文 参考訳(メタデータ) (2023-09-11T20:16:38Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - TweetEval: Unified Benchmark and Comparative Evaluation for Tweet
Classification [22.265865542786084]
異種Twitter固有の7つの分類タスクからなる新しい評価フレームワーク(TweetEval)を提案する。
最初の実験では、既存の訓練済みの汎用言語モデルから始めることの有効性を示した。
論文 参考訳(メタデータ) (2020-10-23T14:11:04Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。