論文の概要: Survey of NLU Benchmarks Diagnosing Linguistic Phenomena: Why not Standardize Diagnostics Benchmarks?
- arxiv url: http://arxiv.org/abs/2507.20419v1
- Date: Sun, 27 Jul 2025 21:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.663665
- Title: Survey of NLU Benchmarks Diagnosing Linguistic Phenomena: Why not Standardize Diagnostics Benchmarks?
- Title(参考訳): 言語現象を診断するNLUベンチマークの調査:なぜ診断ベンチマークを標準化しないのか?
- Authors: Khloud AL Jallad, Nada Ghneim, Ghaida Rebdawi,
- Abstract要約: 自然言語理解(NLU)は自然言語処理(NLP)の基本課題である
NLU能力の評価は、ここ数年で研究者を惹きつける傾向にある研究トピックとなっている。
いくつかのベンチマークには、調査ときめ細かいエラー解析のために設計された診断データセットが含まれている。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Understanding (NLU) is a basic task in Natural Language Processing (NLP). The evaluation of NLU capabilities has become a trending research topic that attracts researchers in the last few years, resulting in the development of numerous benchmarks. These benchmarks include various tasks and datasets in order to evaluate the results of pretrained models via public leaderboards. Notably, several benchmarks contain diagnostics datasets designed for investigation and fine-grained error analysis across a wide range of linguistic phenomena. This survey provides a comprehensive review of available English, Arabic, and Multilingual NLU benchmarks, with a particular emphasis on their diagnostics datasets and the linguistic phenomena they covered. We present a detailed comparison and analysis of these benchmarks, highlighting their strengths and limitations in evaluating NLU tasks and providing in-depth error analysis. When highlighting the gaps in the state-of-the-art, we noted that there is no naming convention for macro and micro categories or even a standard set of linguistic phenomena that should be covered. Consequently, we formulated a research question regarding the evaluation metrics of the evaluation diagnostics benchmarks: "Why do not we have an evaluation standard for the NLU evaluation diagnostics benchmarks?" similar to ISO standard in industry. We conducted a deep analysis and comparisons of the covered linguistic phenomena in order to support experts in building a global hierarchy for linguistic phenomena in future. We think that having evaluation metrics for diagnostics evaluation could be valuable to gain more insights when comparing the results of the studied models on different diagnostics benchmarks.
- Abstract(参考訳): 自然言語理解(NLU)は自然言語処理(NLP)の基本課題である。
NLU能力の評価は近年、研究者を惹きつける研究トピックとなり、多くのベンチマークが開発されている。
これらのベンチマークには、公開リーダボードを通じて事前トレーニングされたモデルの結果を評価するために、さまざまなタスクとデータセットが含まれている。
特に、いくつかのベンチマークには、広範囲の言語現象に関する詳細なエラー分析と調査のために設計された診断データセットが含まれている。
このサーベイは、利用可能な英語、アラビア語、多言語NLUベンチマークの包括的なレビューを提供し、診断データセットとそれらがカバーした言語現象に特に重点を置いている。
我々はこれらのベンチマークの詳細な比較と分析を行い、NLUタスクの評価における長所と短所を強調し、深度エラー解析を提供する。
最先端のギャップを強調する際には、マクロやマイクロカテゴリの命名規則や、カバーすべき言語現象の標準セットさえ存在しないことに留意した。
その結果, 評価診断ベンチマークの評価基準について, 「なぜNLU評価診断ベンチマークの評価基準を持っていないのか?」 という質問が, 業界におけるISO標準と類似している。
本研究では,将来的な言語現象のグローバルな階層構築を支援するために,包括的言語現象の詳細な分析と比較を行った。
我々は、診断評価のための評価指標を持つことは、異なる診断ベンチマークで研究されたモデルの結果を比較する際に、より多くの洞察を得るのに有用であると考えている。
関連論文リスト
- Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - Towards Multi-dimensional Evaluation of LLM Summarization across Domains and Languages [17.028968054304947]
MSumBenchは、英語と中国語の要約の多次元多領域評価である。
8つの現代的な要約モデルを評価することにより、ドメインや言語間で異なるパフォーマンスパターンが見つかる。
論文 参考訳(メタデータ) (2025-05-31T13:12:35Z) - VideoLLM Benchmarks and Evaluation: A Survey [1.933873929180089]
ビデオ理解ベンチマークの現況を考察し,その特徴,評価プロトコル,限界について考察する。
これらのベンチマークにおいて,最新のビデオLLMの性能動向を強調し,現在の評価フレームワークにおける重要な課題を明らかにする。
本調査は,ビデオLLMを効果的に評価する方法の構造化された理解と,大規模言語モデルによる映像理解の分野を前進させるための有望な道の特定を目的とした。
論文 参考訳(メタデータ) (2025-05-03T20:56:09Z) - Beyond Metrics: A Critical Analysis of the Variability in Large Language Model Evaluation Frameworks [3.773596042872403]
大規模言語モデル(LLM)は進化を続けており、堅牢で標準化された評価ベンチマークの必要性が最重要である。
さまざまなフレームワークがこの分野への注目すべき貢献として現れ、包括的な評価テストとベンチマークを提供している。
本稿では,これらの評価手法の探索と批判的分析を行い,その強度,限界,および自然言語処理における最先端の進展に対する影響について述べる。
論文 参考訳(メタデータ) (2024-07-29T03:37:14Z) - A Critical Review of Causal Reasoning Benchmarks for Large Language Models [2.1311710788645617]
因果関係に関するLLMベンチマークの概要を概観する。
有用なベンチマークやベンチマークのセットが満たすべき基準のセットを導出します。
論文 参考訳(メタデータ) (2024-07-10T20:11:51Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。