論文の概要: Just Rank: Rethinking Evaluation with Word and Sentence Similarities
- arxiv url: http://arxiv.org/abs/2203.02679v1
- Date: Sat, 5 Mar 2022 08:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:37:55.459782
- Title: Just Rank: Rethinking Evaluation with Word and Sentence Similarities
- Title(参考訳): Just Rank: 単語と文の類似性による評価の再考
- Authors: Bin Wang, C.-C. Jay Kuo, Haizhou Li
- Abstract要約: 埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
- 参考スコア(独自算出の注目度): 105.5541653811528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word and sentence embeddings are useful feature representations in natural
language processing. However, intrinsic evaluation for embeddings lags far
behind, and there has been no significant update since the past decade. Word
and sentence similarity tasks have become the de facto evaluation method. It
leads models to overfit to such evaluations, negatively impacting embedding
models' development. This paper first points out the problems using semantic
similarity as the gold standard for word and sentence embedding evaluations.
Further, we propose a new intrinsic evaluation method called EvalRank, which
shows a much stronger correlation with downstream tasks. Extensive experiments
are conducted based on 60+ models and popular datasets to certify our
judgments. Finally, the practical evaluation toolkit is released for future
benchmarking purposes.
- Abstract(参考訳): 単語と文の埋め込みは自然言語処理において有用な特徴表現である。
しかし、組み込みの本質的な評価は遅れており、過去10年間、重要な更新は行われていない。
単語と文の類似性タスクがデファクト評価手法となっている。
これはモデルをそのような評価に過度に適合させ、埋め込みモデルの開発に悪影響を及ぼす。
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
さらに,下流タスクとより強い相関を示すevalrankと呼ばれる新しい本質的評価手法を提案する。
大規模な実験は60以上のモデルと一般的なデータセットに基づいて行われ、判断を認証する。
最後に、将来のベンチマークのために実用的な評価ツールキットがリリースされる。
関連論文リスト
- Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。
また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文 参考訳(メタデータ) (2024-06-20T18:07:19Z) - Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [55.66090768926881]
本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。
本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。
トリックテストとRUTEd評価の対応は見つからなかった。
論文 参考訳(メタデータ) (2024-02-20T01:49:15Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - TweetEval: Unified Benchmark and Comparative Evaluation for Tweet
Classification [22.265865542786084]
異種Twitter固有の7つの分類タスクからなる新しい評価フレームワーク(TweetEval)を提案する。
最初の実験では、既存の訓練済みの汎用言語モデルから始めることの有効性を示した。
論文 参考訳(メタデータ) (2020-10-23T14:11:04Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。