論文の概要: The Catalan Language CLUB
- arxiv url: http://arxiv.org/abs/2112.01894v1
- Date: Fri, 3 Dec 2021 13:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:31:12.792477
- Title: The Catalan Language CLUB
- Title(参考訳): カタルーニャ語CLUB
- Authors: Carlos Rodriguez-Penagos, Carme Armentano-Oller, Marta Villegas, Maite
Melero, Aitor Gonzalez, Ona de Gibert Bonet, and Casimiro Carrino Pio
- Abstract要約: カタルーニャ語理解ベンチマーク(CLUB)は、さまざまなNLUタスクを表すさまざまなデータセットを含んでいる。
AINAとPlanTLは、人工知能時代のカタルーニャ語を強化するための2つの公的資金提供イニシアチブの一部である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Catalan Language Understanding Benchmark (CLUB) encompasses various
datasets representative of different NLU tasks that enable accurate evaluations
of language models, following the General Language Understanding Evaluation
(GLUE) example. It is part of AINA and PlanTL, two public funding initiatives
to empower the Catalan language in the Artificial Intelligence era.
- Abstract(参考訳): カタルーニャ語理解ベンチマーク(CLUB)は、言語モデルの正確な評価を可能にするさまざまなNLUタスクを表すさまざまなデータセットを包含している。
AINAとPlanTLは、人工知能時代のカタルーニャ語を強化するための2つの公的資金提供イニシアチブの一部である。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Sequence-to-Sequence Resources for Catalan [0.6562256987706128]
我々はニュースワイヤの領域に2つの新しい抽象的要約データセットを示す。
また、パラレルなカタルーニャ語と英語のコーパスを3つの新しいテストセットと組み合わせて導入する。
カタルーニャ語における言語技術の発展を促進するために、オープンライセンスの下でこの成果のリソースを公開します。
論文 参考訳(メタデータ) (2022-02-14T16:58:19Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in
Indic Languages [0.0]
インジケート言語は、豊富なモーフィオシンタックス、文法的ジェンダー、自由な線形単語順序、および高インフレクション型形態学を有する。
Vy=akarana - 多言語言語モデルの構文評価のためのIndic言語における性別バランスの取れたカラーレスグリーン文のベンチマーク。
評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。
論文 参考訳(メタデータ) (2021-03-01T09:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。