論文の概要: Turkish Native Language Identification
- arxiv url: http://arxiv.org/abs/2307.14850v1
- Date: Thu, 27 Jul 2023 13:28:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 14:32:13.780899
- Title: Turkish Native Language Identification
- Title(参考訳): トルコ語母語識別
- Authors: Ahmet Yavuz Uluslu and Gerold Schneider
- Abstract要約: トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。
我々は最近構築されたトルコ語学習コーパスを使用し、3つの構文的特徴を組み合わせた。
- 参考スコア(独自算出の注目度): 0.5330240017302619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the first application of Native Language
Identification (NLI) for the Turkish language. NLI involves predicting the
writer's first language by analysing their writing in different languages.
While most NLI research has focused on English, our study extends its scope to
Turkish. We used the recently constructed Turkish Learner Corpus and employed a
combination of three syntactic features (CFG production rules, part-of-speech
n-grams and function words) with L2 texts to demonstrate their effectiveness in
this task.
- Abstract(参考訳): 本稿では,トルコ語に対するNative Language Identification (NLI)の最初の応用について述べる。
NLIは、著者の最初の言語を様々な言語で分析することで予測する。
ほとんどのNLI研究は英語に重点を置いているが、トルコ語にまで範囲を広げている。
我々は,最近構築されたトルコ語学習者コーパスを用いて,3つの構文的特徴(CFG生成規則,助詞n-gram,関数語)とL2テキストの組み合わせを用いて,これらの課題の有効性を実証した。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Multilingual Text-to-Speech Synthesis for Turkic Languages Using
Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。
ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。
Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文 参考訳(メタデータ) (2023-05-25T05:57:54Z) - Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文 参考訳(メタデータ) (2022-08-02T14:05:15Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。
トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。
言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文 参考訳(メタデータ) (2022-03-02T16:18:44Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。