論文の概要: TextClass Benchmark: A Continuous Elo Rating of LLMs in Social Sciences
- arxiv url: http://arxiv.org/abs/2412.00539v1
- Date: Sat, 30 Nov 2024 17:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:44.244044
- Title: TextClass Benchmark: A Continuous Elo Rating of LLMs in Social Sciences
- Title(参考訳): TextClass Benchmark: 社会科学におけるLLMの継続的な評価
- Authors: Bastián González-Bustamante,
- Abstract要約: TextClass Benchmarkプロジェクトは、テキスト分類タスクのためのLLMと変換器の包括的で公平で動的な評価を提供することを目的としている。
この評価は、NLPやテキスト・アズ・データ・アプローチに関わる社会科学の分野における様々な領域や言語にまたがる。
リーダーボードは、カスタマイズされたEloレーティングシステムを使用して、パフォーマンス指標と相対ランクを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The TextClass Benchmark project is an ongoing, continuous benchmarking process that aims to provide a comprehensive, fair, and dynamic evaluation of LLMs and transformers for text classification tasks. This evaluation spans various domains and languages in social sciences disciplines engaged in NLP and text-as-data approach. The leaderboards present performance metrics and relative ranking using a tailored Elo rating system. With each leaderboard cycle, novel models are added, fixed test sets can be replaced for unseen, equivalent data to test generalisation power, ratings are updated, and a Meta-Elo leaderboard combines and weights domain-specific leaderboards. This article presents the rationale and motivation behind the project, explains the Elo rating system in detail, and estimates Meta-Elo across different classification tasks in social science disciplines. We also present a snapshot of the first cycle of classification tasks on incivility data in Chinese, English, German and Russian. This ongoing benchmarking process includes not only additional languages such as Arabic, Hindi, and Spanish but also a classification of policy agenda topics, misinformation, among others.
- Abstract(参考訳): TextClass Benchmarkプロジェクトは、テキスト分類タスクのためのLLMとトランスフォーマーの包括的で公平で動的な評価を提供することを目的とした、継続的なベンチマークプロセスである。
この評価は、NLPやテキスト・アズ・データ・アプローチに関わる社会科学の分野における様々な領域や言語にまたがる。
リーダーボードは、カスタマイズされたEloレーティングシステムを使用して、パフォーマンス指標と相対ランクを示す。
それぞれのリーダーボードサイクルでは、新しいモデルが追加され、固定テストセットが見えない、同等のデータに置き換えられ、一般化能力をテストする、評価が更新され、メタエロのリーダーボードが結合され、ドメイン固有のリーダーボードが重み付けされる。
本稿では,プロジェクトの背後にある根拠とモチベーションを概説し,エロ評価システムを詳細に説明し,社会科学分野における様々な分類課題にまたがるメタエロを推定する。
また、中国語、英語、ドイツ語、ロシア語の公民権データの分類作業の第一サイクルのスナップショットも提示する。
このベンチマークプロセスには、アラビア語、ヒンディー語、スペイン語などの追加言語だけでなく、政策議題、誤情報などの分類も含まれている。
関連論文リスト
- FaMTEB: Massive Text Embedding Benchmark in Persian Language [9.204800002382042]
本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。
私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
論文 参考訳(メタデータ) (2025-02-17T09:05:21Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand [117.62186420147563]
リーダーボード, 二次元リーダーボード(ビルボード)の一般化を提案する。
従来の一次元のリーダーボードがシステムに所定の基準でソートするのとは異なり、ビルボードはジェネレータと評価指標の両方を競合するエントリとして受け入れる。
いくつかの異なるメトリクスの線形アンサンブルが、場合によっては既存のメトリクスを独立して大幅に上回っていることを実証する。
論文 参考訳(メタデータ) (2021-12-08T06:34:58Z) - Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。
予測コヒーレンスの新しい尺度による評価システムを提案する。
論文 参考訳(メタデータ) (2021-09-10T15:04:23Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - TweetEval: Unified Benchmark and Comparative Evaluation for Tweet
Classification [22.265865542786084]
異種Twitter固有の7つの分類タスクからなる新しい評価フレームワーク(TweetEval)を提案する。
最初の実験では、既存の訓練済みの汎用言語モデルから始めることの有効性を示した。
論文 参考訳(メタデータ) (2020-10-23T14:11:04Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Overview of the TREC 2019 Fair Ranking Track [65.15263872493799]
TREC Fair Ranking トラックの目標は、異なるコンテンツプロバイダに対する公正性の観点から、検索システムを評価するベンチマークを開発することであった。
本稿では,タスク定義やデータ記述,アノテーションプロセスなどを含むトラックの概要について述べる。
論文 参考訳(メタデータ) (2020-03-25T21:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。