Fugu-MT 論文翻訳(概要): Just Rank: Rethinking Evaluation with Word and Sentence Similarities

論文の概要: Just Rank: Rethinking Evaluation with Word and Sentence Similarities

arxiv url: http://arxiv.org/abs/2203.02679v1
Date: Sat, 5 Mar 2022 08:40:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 14:37:55.459782
Title: Just Rank: Rethinking Evaluation with Word and Sentence Similarities
Title（参考訳）: Just Rank: 単語と文の類似性による評価の再考
Authors: Bin Wang, C.-C. Jay Kuo, Haizhou Li
Abstract要約: 埋め込みの本質的な評価はかなり遅れていますそして過去10年間重要な更新は行われていません本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
参考スコア（独自算出の注目度）: 105.5541653811528
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Word and sentence embeddings are useful feature representations in natural language processing. However, intrinsic evaluation for embeddings lags far behind, and there has been no significant update since the past decade. Word and sentence similarity tasks have become the de facto evaluation method. It leads models to overfit to such evaluations, negatively impacting embedding models' development. This paper first points out the problems using semantic similarity as the gold standard for word and sentence embedding evaluations. Further, we propose a new intrinsic evaluation method called EvalRank, which shows a much stronger correlation with downstream tasks. Extensive experiments are conducted based on 60+ models and popular datasets to certify our judgments. Finally, the practical evaluation toolkit is released for future benchmarking purposes.
Abstract（参考訳）: 単語と文の埋め込みは自然言語処理において有用な特徴表現である。しかし、組み込みの本質的な評価は遅れており、過去10年間、重要な更新は行われていない。単語と文の類似性タスクがデファクト評価手法となっている。これはモデルをそのような評価に過度に適合させ、埋め込みモデルの開発に悪影響を及ぼす。本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。さらに,下流タスクとより強い相関を示すevalrankと呼ばれる新しい本質的評価手法を提案する。大規模な実験は60以上のモデルと一般的なデータセットに基づいて行われ、判断を認証する。最後に、将来のベンチマークのために実用的な評価ツールキットがリリースされる。

関連論文リスト

Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。本稿では,予測の基盤性を考慮した新しい評価手法を提案する。提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文参考訳（メタデータ） (2025-03-24T20:14:46Z)
Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:49:35Z)
Holistic Evaluation for Interleaved Text-and-Image Generation [19.041251355695973]
我々はインターリーブドベンチ(InterleavedBench)について紹介する。また、GPT-4oをベースとした強力な基準フリーメトリックであるInterleavedEvalを提案し、正確で説明可能な評価を行う。
論文参考訳（メタデータ） (2024-06-20T18:07:19Z)
Bias in Language Models: Beyond Trick Tests and Toward RUTEd Evaluation [55.66090768926881]
本研究では,非テクスチャ化された「トリックテスト」と,現実的利用と有形効果に根ざした評価の対応について検討する。本稿では,現在文献に適合している3つの非文脈評価と,長文コンテンツ生成に適用された3つの類似のRUTED評価を比較した。トリックテストとRUTEd評価の対応は見つからなかった。
論文参考訳（メタデータ） (2024-02-20T01:49:15Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Do Smaller Language Models Answer Contextualised Questions Through Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文参考訳（メタデータ） (2023-11-21T04:06:08Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文参考訳（メタデータ） (2022-10-17T08:55:26Z)
TweetEval: Unified Benchmark and Comparative Evaluation for Tweet Classification [22.265865542786084]
異種Twitter固有の7つの分類タスクからなる新しい評価フレームワーク(TweetEval)を提案する。最初の実験では、既存の訓練済みの汎用言語モデルから始めることの有効性を示した。
論文参考訳（メタデータ） (2020-10-23T14:11:04Z)
Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文参考訳（メタデータ） (2020-02-18T17:59:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。