Fugu-MT 論文翻訳(概要): Mukayese: Turkish NLP Strikes Back

論文の概要: Mukayese: Turkish NLP Strikes Back

arxiv url: http://arxiv.org/abs/2203.01215v1
Date: Wed, 2 Mar 2022 16:18:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-03 19:19:43.611117
Title: Mukayese: Turkish NLP Strikes Back
Title（参考訳）: トルコのNLP「ムカイセ」が復活
Authors: Ali Safaya, Emirhan Kurtulu\c{s}, Arda G\"okto\u{g}an, Deniz Yuret
Abstract要約: 我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
参考スコア（独自算出の注目度）: 0.19116784879310023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Having sufficient resources for language X lifts it from the under-resourced languages class, but not necessarily from the under-researched class. In this paper, we address the problem of the absence of organized benchmarks in the Turkish language. We demonstrate that languages such as Turkish are left behind the state-of-the-art in NLP applications. As a solution, we present Mukayese, a set of NLP benchmarks for the Turkish language that contains several NLP tasks. We work on one or more datasets for each benchmark and present two or more baselines. Moreover, we present four new benchmarking datasets in Turkish for language modeling, sentence segmentation, and spell checking. All datasets and baselines are available under: https://github.com/alisafaya/mukayese
Abstract（参考訳）: 言語 x に十分なリソースを持つことは、リソース不足の言語クラスから解放されるが、必ずしもリソース不足のクラスからではない。本稿では,トルコ語における組織的ベンチマークの欠如の問題に対処する。我々は、トルコ語などの言語が、NLPアプリケーションの最先端に置き忘れられていることを実証する。解決法として,複数のNLPタスクを含むトルコ語のNLPベンチマークセットであるMukayeseを紹介する。私たちはベンチマーク毎に1つ以上のデータセットを作成し、2つ以上のベースラインを提供します。さらに,トルコ語における言語モデリング,文分割,スペルチェックのための4つの新しいベンチマークデータセットを提案する。すべてのデータセットとベースラインは以下の通りである。

関連論文リスト

TurkicNLP: An NLP Toolkit for Turkic Languages [6.156016907917316]
TurkicNLPはPythonライブラリで、トルコ語のための単一の一貫したNLPパイプラインを提供する。トークン化、形態解析、部分音声タグ付け、依存性解析、名前付きエンティティ認識、双方向スクリプトの文字変換、機械翻訳をカバーしている。
論文参考訳（メタデータ） (2026-02-22T13:08:21Z)
TurkBench: A Benchmark for Evaluating Turkish Large Language Models [0.0]
TurkBenchは、トルコ語で生成する大規模言語モデルの能力を評価するために設計されたベンチマークである。 21の異なるサブタスクにまたがる8,151のデータサンプルを含んでいる。多様なタスクと文化的に関連のあるデータは、研究者や開発者に対して、モデルを評価する貴重なツールを提供するだろう。
論文参考訳（メタデータ） (2026-01-11T18:28:23Z)
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models [0.0]
本稿では,歴史的トルコ語の自然言語処理(NLP)の基礎資源とモデルを紹介する。トルコ語の歴史形式として、最初の名前付きエンティティ認識(NER)データセットHisTRと、最初のUniversal DependenciesツリーバンクであるOTA-BOUNを提示する。我々はまた、翻訳された歴史的トルコ語テキストのクリーンコーパスであるオスマンテキストコーパス(OTC)についても紹介する。
論文参考訳（メタデータ） (2025-01-08T20:29:00Z)
TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文参考訳（メタデータ） (2024-07-17T08:28:55Z)
Do LLMs Recognize me, When I is not me: Assessment of LLMs Understanding of Turkish Indexical Pronouns in Indexical Shift Contexts [0.0]
本研究はトルコにおける指数シフト問題に焦点をあてる。索引的シフト問題(Indexical Shift problem)は、英語のような高リソース言語には存在しない文法的挑戦である指数的シフト文脈における代名詞の解法である。本研究は,この目的のために設計されたトルコ語のデータセットを公開し,任意の言語におけるインデックスシフトを調査する最初の研究である。
論文参考訳（メタデータ） (2024-06-08T20:30:53Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文参考訳（メタデータ） (2024-03-16T20:18:36Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文参考訳（メタデータ） (2023-09-13T03:42:28Z)
This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文参考訳（メタデータ） (2022-11-23T16:51:09Z)
Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。 2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文参考訳（メタデータ） (2020-04-30T17:12:52Z)
CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。 CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文参考訳（メタデータ） (2020-04-13T15:02:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。