論文の概要: Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian
SuperGLUE Tasks
- arxiv url: http://arxiv.org/abs/2105.01192v1
- Date: Mon, 3 May 2021 22:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 00:33:20.936249
- Title: Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian
SuperGLUE Tasks
- Title(参考訳): ロシア超言語課題解決におけるルールベースヒューリスティックスの妥当な有効性
- Authors: Tatyana Iazykova, Denis Kapelyushnik, Olga Bystrova, Andrey Kutuzov
- Abstract要約: SuperGLUEのようなリーダーボードは、NLPの活発な開発のための重要なインセンティブと見なされている。
テストデータセットは浅瀬に対して脆弱であることを示す。
最も簡単な説明として)RSGリーダーボードにおけるSOTAモデルのパフォーマンスの大部分は、これらの浅瀬を利用するためである可能性が高い。
- 参考スコア(独自算出の注目度): 2.6189995284654737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leader-boards like SuperGLUE are seen as important incentives for active
development of NLP, since they provide standard benchmarks for fair comparison
of modern language models. They have driven the world's best engineering teams
as well as their resources to collaborate and solve a set of tasks for general
language understanding. Their performance scores are often claimed to be close
to or even higher than the human performance. These results encouraged more
thorough analysis of whether the benchmark datasets featured any statistical
cues that machine learning based language models can exploit. For English
datasets, it was shown that they often contain annotation artifacts. This
allows solving certain tasks with very simple rules and achieving competitive
rankings.
In this paper, a similar analysis was done for the Russian SuperGLUE (RSG), a
recently published benchmark set and leader-board for Russian natural language
understanding. We show that its test datasets are vulnerable to shallow
heuristics. Often approaches based on simple rules outperform or come close to
the results of the notorious pre-trained language models like GPT-3 or BERT. It
is likely (as the simplest explanation) that a significant part of the SOTA
models performance in the RSG leader-board is due to exploiting these shallow
heuristics and that has nothing in common with real language understanding. We
provide a set of recommendations on how to improve these datasets, making the
RSG leader-board even more representative of the real progress in Russian NLU.
- Abstract(参考訳): SuperGLUEのようなリーダーボードは、現代の言語モデルの公正な比較のための標準ベンチマークを提供するため、NLPのアクティブな開発にとって重要なインセンティブであると考えられている。
彼らは、世界中の最高のエンジニアリングチームと彼らのリソースを協調させ、一般的な言語を理解するための一連のタスクを解決しました。
彼らのパフォーマンススコアは、しばしば人間のパフォーマンスに近いかそれ以上のものであると主張される。
これらの結果は、機械学習ベースの言語モデルが活用できる統計的手がかりを特徴付けるベンチマークデータセットの詳細な分析を促した。
英語データセットでは、アノテーションアーティファクトを含むことが多いことが示されている。
これにより、非常に単純なルールでタスクを解決し、競争力のあるランキングを達成できます。
本稿では、最近発表されたロシアの自然言語理解のためのベンチマークセットとリーダーボードであるロシアのSuperGLUE(RSG)について、同様の分析を行った。
テストデータセットは浅いヒューリスティックスに対して脆弱であることを示す。
単純なルールに基づくアプローチは、しばしば、GPT-3やBERTのような悪名高い事前訓練された言語モデルの結果よりも優れているか、あるいは近いものとなる。
最も単純な説明として)RSGのリーダーボードにおけるSOTAモデルのパフォーマンスのかなりの部分は、これらの浅いヒューリスティックを利用しており、実際の言語理解とは共通点がない。
我々は、これらのデータセットを改善する方法に関する一連の推奨事項を提供し、rsgリーダーボードがロシアのnluの本当の進歩をさらに示している。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark [28.472036496534116]
bgGLUEはブルガリアにおける自然言語理解(NLU)タスクの言語モデルを評価するためのベンチマークである。
ブルガリア語のための事前訓練された言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
論文 参考訳(メタデータ) (2023-06-04T12:54:00Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。