論文の概要: Native Language Identification in Turkish: L1 Influence of Arabic, Persian, and Albanian
- arxiv url: http://arxiv.org/abs/2307.14850v5
- Date: Mon, 13 Oct 2025 14:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.64053
- Title: Native Language Identification in Turkish: L1 Influence of Arabic, Persian, and Albanian
- Title(参考訳): トルコ語における母語識別:L1 アラビア語、ペルシア語、アルバニア語の影響
- Authors: Ahmet Yavuz Uluslu, Gerold Schneider,
- Abstract要約: 本稿では,トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。
我々はアルバニア語、アラビア語、ペルシア語の母語話者によって書かれたテキストのコーパスを分析する。
我々のモデルは有望な結果を得ることができ、最も予測可能な特徴を分析してL1特異的な伝達効果を明らかにする。
- 参考スコア(独自算出の注目度): 1.7802147489386628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the first application of Native Language Identification (NLI) for the Turkish language. NLI is the task of automatically identifying an individual's native language (L1) based on their writing or speech in a non-native language (L2). While most NLI research has focused on L2 English, our study extends this scope to L2 Turkish by analyzing a corpus of texts written by native speakers of Albanian, Arabic and Persian. We leverage a cleaned version of the Turkish Learner Corpus and demonstrate the effectiveness of syntactic features, comparing a structural Part-of-Speech n-gram model to a hybrid model that retains function words. Our models achieve promising results, and we analyze the most predictive features to reveal L1-specific transfer effects. We make our data and code publicly available for further study.
- Abstract(参考訳): 本稿では,トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。
NLIは、非ネイティブ言語(L2)におけるその記述やスピーチに基づいて、個人のネイティブ言語(L1)を自動的に識別するタスクである。
ほとんどのNLI研究はL2英語に重点を置いているが、アルバニア語、アラビア語、ペルシア語の母語話者によって書かれたテキストのコーパスを分析することで、この範囲をトルコ語L2に拡張している。
我々は,トルコ語学習コーパスのクリーン化版を活用し,構文的特徴の有効性を実証し,構造的部分一致n-gramモデルと関数単語を保持するハイブリッドモデルとの比較を行った。
我々のモデルは有望な結果を得ることができ、最も予測可能な特徴を分析してL1特異的な伝達効果を明らかにする。
さらなる研究のために、データとコードを公開しています。
関連論文リスト
- Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models [0.0]
本稿では,歴史的トルコ語の自然言語処理(NLP)の基礎資源とモデルを紹介する。
トルコ語の歴史形式として、最初の名前付きエンティティ認識(NER)データセットHisTRと、最初のUniversal DependenciesツリーバンクであるOTA-BOUNを提示する。
我々はまた、翻訳された歴史的トルコ語テキストのクリーンコーパスであるオスマンテキストコーパス(OTC)についても紹介する。
論文 参考訳(メタデータ) (2025-01-08T20:29:00Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - Multilingual Text-to-Speech Synthesis for Turkic Languages Using
Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。
ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。
Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文 参考訳(メタデータ) (2023-05-25T05:57:54Z) - Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。
我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。
話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文 参考訳(メタデータ) (2022-08-02T14:05:15Z) - TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。
このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文 参考訳(メタデータ) (2022-07-11T11:46:59Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。
トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。
言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文 参考訳(メタデータ) (2022-03-02T16:18:44Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。