論文の概要: SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for
Social Media NLP Research
- arxiv url: http://arxiv.org/abs/2310.14757v1
- Date: Mon, 23 Oct 2023 09:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 21:09:27.921661
- Title: SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for
Social Media NLP Research
- Title(参考訳): SuperTweetEval:ソーシャルメディアNLP研究のための混成、統一、不均一なベンチマーク
- Authors: Dimosthenis Antypas, Asahi Ushio, Francesco Barbieri, Leonardo Neves,
Kiamehr Rezaee, Luis Espinosa-Anke, Jiaxin Pei, Jose Camacho-Collados
- Abstract要約: ソーシャルメディアのSuperTweetEvalにおいて,NLP評価のための統一ベンチマークを導入する。
SuperTweetEvalで幅広いモデルのパフォーマンスをベンチマークした結果、最近の言語モデリングの進歩にもかかわらず、ソーシャルメディアは依然として困難な状態にあることが示唆された。
- 参考スコア(独自算出の注目度): 33.698581876383074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite its relevance, the maturity of NLP for social media pales in
comparison with general-purpose models, metrics and benchmarks. This fragmented
landscape makes it hard for the community to know, for instance, given a task,
which is the best performing model and how it compares with others. To
alleviate this issue, we introduce a unified benchmark for NLP evaluation in
social media, SuperTweetEval, which includes a heterogeneous set of tasks and
datasets combined, adapted and constructed from scratch. We benchmarked the
performance of a wide range of models on SuperTweetEval and our results suggest
that, despite the recent advances in language modelling, social media remains
challenging.
- Abstract(参考訳): その関連性にもかかわらず、ソーシャルメディアにおけるNLPの成熟度は、汎用モデル、メトリクス、ベンチマークと比較すると未熟である。
この断片化された状況は、例えば、最高のパフォーマンスモデルであるタスクと、それが他とどのように比較されるかを、コミュニティが知るのを難しくします。
この問題を軽減するため,ソーシャルメディアにおけるNLP評価の統一ベンチマークであるSuperTweetEvalを導入する。
SuperTweetEvalで幅広いモデルのパフォーマンスをベンチマークした結果、最近の言語モデリングの進歩にもかかわらず、ソーシャルメディアは依然として困難な状態にあることが示唆された。
関連論文リスト
- A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation
using Generative Models [74.43215520371506]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A Survey of Parameters Associated with the Quality of Benchmarks in NLP [24.6240575061124]
最近の研究では、モデルがいくつかの人気のあるベンチマークに対して、望ましいタスクを本当に学習することなく、刺激的なバイアスに過度に適合していることが示されている。
これらの問題に対する潜在的な解決策 - 量的定量化品質 - は、まだ未検討のままである。
ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
論文 参考訳(メタデータ) (2022-10-14T06:44:14Z) - TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social
Media [17.840417362892104]
我々は、ソーシャルメディアベースの意味変化の研究を加速するための新しいベンチマークであるTempoWiCを紹介する。
この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。
論文 参考訳(メタデータ) (2022-09-15T11:17:56Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。