論文の概要: Empowering Cross-lingual Behavioral Testing of NLP Models with
Typological Features
- arxiv url: http://arxiv.org/abs/2307.05454v1
- Date: Tue, 11 Jul 2023 17:33:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 13:44:48.518976
- Title: Empowering Cross-lingual Behavioral Testing of NLP Models with
Typological Features
- Title(参考訳): 類型的特徴を持つNLPモデルの言語間挙動試験の強化
- Authors: Ester Hlavnova, Sebastian Ruder
- Abstract要約: M2Cは、NLPモデルの振る舞いテストのための形態学的に認識されるフレームワークである。
我々は、M2Cを用いて、12の類型的多様言語における特定の言語的特徴に照らして、モデルの振る舞いを探索するテストを生成する。
- 参考スコア(独自算出の注目度): 37.814385219683516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A challenge towards developing NLP systems for the world's languages is
understanding how they generalize to typological differences relevant for
real-world applications. To this end, we propose M2C, a morphologically-aware
framework for behavioral testing of NLP models. We use M2C to generate tests
that probe models' behavior in light of specific linguistic features in 12
typologically diverse languages. We evaluate state-of-the-art language models
on the generated tests. While models excel at most tests in English, we
highlight generalization failures to specific typological characteristics such
as temporal expressions in Swahili and compounding possessives in Finish. Our
findings motivate the development of models that address these blind spots.
- Abstract(参考訳): 世界の言語のためのnlpシステムを開発するための課題は、現実世界のアプリケーションに関連するタイプ論的差異にどのように一般化するかを理解することである。
そこで本研究では,NLPモデルの動作テストのための形態的認識フレームワークであるM2Cを提案する。
我々は、M2Cを用いて、12の類型的多様言語における特定の言語的特徴に照らして、モデルの振る舞いを探索するテストを生成する。
生成したテストで最先端の言語モデルを評価する。
モデルは英語のほとんどのテストで優れているが、スワヒリ語の時相表現や完了時の複合所有物のような特定のタイプ的特徴に対する一般化の失敗を強調する。
我々の発見は、これらの盲点に対処するモデルの開発を動機付けている。
関連論文リスト
- L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - Universal and Independent: Multilingual Probing Framework for Exhaustive
Model Interpretation and Evaluation [0.04199844472131922]
多数の言語を簡単に探索できるGUI支援フレームワークを提案し,適用した。
mBERTモデルで明らかになった規則性のほとんどは、西欧語で典型的である。
私たちのフレームワークは,既存のプローブツールボックスやモデルカード,リーダボードと統合することができます。
論文 参考訳(メタデータ) (2022-10-24T13:41:17Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Do Neural Language Models Show Preferences for Syntactic Formalisms? [14.388237635684737]
本研究では,言語モデルが捉えた構文構造のセマンランスが,表面シンタクティックあるいは深層構文解析の様式にどの程度依存しているかについて検討する。
13の異なる言語で訓練されたBERTおよびELMoモデルに対して,有向依存木抽出のためのプローブを適用した。
どちらのモデルも、SUDよりもUDを好むことが分かりました。
論文 参考訳(メタデータ) (2020-04-29T11:37:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。