Fugu-MT 論文翻訳(概要): Turkish Native Language Identification

論文の概要: Turkish Native Language Identification

arxiv url: http://arxiv.org/abs/2307.14850v4
Date: Sat, 4 Nov 2023 11:23:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 21:39:40.018985
Title: Turkish Native Language Identification
Title（参考訳）: トルコ語母語識別
Authors: Ahmet Yavuz Uluslu and Gerold Schneider
Abstract要約: トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。我々は,L2テキストと3つの構文特徴(CFG生成規則,部分音声n-gram,関数語)を組み合わせて,その効果を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present the first application of Native Language Identification (NLI) for the Turkish language. NLI involves predicting the writer's first language by analysing their writing in different languages. While most NLI research has focused on English, our study extends its scope to Turkish. We used the recently constructed Turkish Learner Corpus and employed a combination of three syntactic features (CFG production rules, part-of-speech n-grams, and function words) with L2 texts to demonstrate their effectiveness in this task.
Abstract（参考訳）: 本稿では,トルコ語に対するNative Language Identification (NLI)の最初の応用について述べる。 NLIは、著者の最初の言語を様々な言語で分析することで予測する。ほとんどのNLI研究は英語に重点を置いているが、トルコ語にまで範囲を広げている。我々は,最近構築されたトルコ語学習者コーパスを用いて,3つの構文的特徴(CFG生成規則,助詞n-gram,関数語)とL2テキストの組み合わせを用いて,これらの課題の有効性を実証した。

関連論文リスト

Language Models as Artificial Learners: Investigating Crosslinguistic Influence [11.168086425477467]
我々は,L1言語の優位性とL2言語の習熟度の変化の効果について検討した。言語間プライミングを用いてL1構造の活性化がL2処理に与える影響を分析する。
論文参考訳（メタデータ） (2026-01-29T11:53:48Z)
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models [0.0]
本稿では,歴史的トルコ語の自然言語処理(NLP)の基礎資源とモデルを紹介する。トルコ語の歴史形式として、最初の名前付きエンティティ認識(NER)データセットHisTRと、最初のUniversal DependenciesツリーバンクであるOTA-BOUNを提示する。我々はまた、翻訳された歴史的トルコ語テキストのクリーンコーパスであるオスマンテキストコーパス(OTC)についても紹介する。
論文参考訳（メタデータ） (2025-01-08T20:29:00Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文参考訳（メタデータ） (2024-03-19T21:45:29Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文参考訳（メタデータ） (2023-12-13T00:52:15Z)
On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文参考訳（メタデータ） (2023-10-21T12:43:27Z)
SLABERT Talk Pretty One Day: Modeling Second Language Acquisition with BERT [0.0]
言語間移動は、話者の母語の言語構造が外国語の獲得に与える影響である。我々はNLP文献が陰性移行現象に十分な注意を払っていないことを発見した。そこで本研究では,TransformerベースのSLAモデルを用いたさらなる研究を提唱する。
論文参考訳（メタデータ） (2023-05-31T06:22:07Z)
Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。 Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文参考訳（メタデータ） (2023-05-25T05:57:54Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
Unravelling Interlanguage Facts via Explainable Machine Learning [10.71581852108984]
我々は、説明可能な機械学習アルゴリズムによって訓練されたNLI分類器の内部に焦点をあてる。我々は、この視点を用いて、NLIと相補的なタスクの両方に対処し、テキストがネイティブまたは非ネイティブ話者によって書かれたかどうかを推測する。話者のL1を最も示唆する2つの課題を解くのに最も有効な言語特性について検討する。
論文参考訳（メタデータ） (2022-08-02T14:05:15Z)
TArC: Tunisian Arabish Corpus First complete release [0.0]
我々は、アラビジでエンコードされたチュニジアのアラビア語に関するプロジェクトの最終結果を示す。このプロジェクトは2つの統合された独立したリソースの創出につながった。
論文参考訳（メタデータ） (2022-07-11T11:46:59Z)
Cross-Lingual Ability of Multilingual Masked Language Models: A Study of Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文参考訳（メタデータ） (2022-03-16T07:09:35Z)
Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文参考訳（メタデータ） (2022-03-02T16:18:44Z)
SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。 SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文参考訳（メタデータ） (2021-06-01T11:20:02Z)
Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文参考訳（メタデータ） (2021-05-11T17:37:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。