論文の概要: Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language
- arxiv url: http://arxiv.org/abs/2405.10133v1
- Date: Thu, 16 May 2024 14:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:02:34.205998
- Title: Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language
- Title(参考訳): トルコ語:急速に進化するトルコ語のためのダイアクロニック資源
- Authors: Togay Yazar, Mucahid Kutlu, İsa Kerem Bayırlı,
- Abstract要約: 1923年のトゥルキイェの設立以来のトルコ語の進化を考察する。
分析の結果、2つの異なる期間の語彙は、その間の時間が増えるにつれて、より多様になることが明らかとなった。
特に「-b」と「-d」の語尾が「-p」と「-t」に置き換わる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past century, the Turkish language has undergone substantial changes, primarily driven by governmental interventions. In this work, our goal is to investigate the evolution of the Turkish language since the establishment of T\"urkiye in 1923. Thus, we first introduce Turkronicles which is a diachronic corpus for Turkish derived from the Official Gazette of T\"urkiye. Turkronicles contains 45,375 documents, detailing governmental actions, making it a pivotal resource for analyzing the linguistic evolution influenced by the state policies. In addition, we expand an existing diachronic Turkish corpus which consists of the records of the Grand National Assembly of T\"urkiye by covering additional years. Next, combining these two diachronic corpora, we seek answers for two main research questions: How have the Turkish vocabulary and the writing conventions changed since the 1920s? Our analysis reveals that the vocabularies of two different time periods diverge more as the time between them increases, and newly coined Turkish words take the place of their old counterparts. We also observe changes in writing conventions. In particular, the use of circumflex noticeably decreases and words ending with the letters "-b" and "-d" are successively replaced with "-p" and "-t" letters, respectively. Overall, this study quantitatively highlights the dramatic changes in Turkish from various aspects of the language in a diachronic perspective.
- Abstract(参考訳): 過去1世紀にわたって、トルコ語は、主に政府の介入によって大きく変化してきた。
本研究の目的は、トルコ語の進化を1923年にT\"urkiye"が設立されてから調査することである。
そこで我々はまず,T\"urkiye"の公式ガゼットに由来するトルコ語用ダイアクロニクコーパスであるトゥルクロニクルを紹介した。
トゥルクロニクルには45,375の文書があり、政府の行動について詳述している。
さらに、我々は、T\ urkiyeのグランド・ナショナル・議会の記録からなる既存のトルコ語コーパスを拡張して、次の2つのダイアクロニックコーパスを組み合わせて、1920年代以降にトルコ語の語彙と表記規則がどう変わったかという2つの主要な研究課題について答えを求める。我々の分析によると、トルコ語の語彙は、その間に大きく変化し、新たに作られたトルコ語の単語は、彼らの古い言葉の代わりとなる。特に、アクセントフレックスの使用が顕著に減少し、「-b」と「-d」がそれぞれ「-p」と「-t」に置き換えられる。
概して、この研究はトルコ語の様々な側面から、ダイアクロニックの観点から、トルコ語の劇的な変化を定量的に強調している。
関連論文リスト
- Turkish Delights: a Dataset on Turkish Euphemisms [1.7614751781649955]
この研究は、潜在的至上主義用語(PET)に関する現在の計算作業をトルコ語に拡張する。
本稿では,トルコのPETデータセットについて紹介する。
トルコ語におけるPETのエウヘミスティックな例と非エウヘミスティックな例を挙げる。
論文 参考訳(メタデータ) (2024-07-17T22:13:42Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Turkish Native Language Identification [0.0]
トルコ語に対するNative Language Identification (NLI) の最初の応用について述べる。
我々は,L2テキストと3つの構文特徴(CFG生成規則,部分音声n-gram,関数語)を組み合わせて,その効果を実証する。
論文 参考訳(メタデータ) (2023-07-27T13:28:31Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - TuGeBiC: A Turkish German Bilingual Code-Switching Corpus [0.0]
トルコ・ドイツのバイリンガルからの自然発声サンプルの収集, 転写, アノテーションのプロセスについて述べる。
データは手動でトークン化され、正規化され、すべての適切な名前(会話で言及された参加者や場所の名前)が偽名に置き換えられた。
結果として得られたコーパスは、研究コミュニティで自由に利用できるようになった。
論文 参考訳(メタデータ) (2022-05-02T12:53:05Z) - Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。
トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。
言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文 参考訳(メタデータ) (2022-03-02T16:18:44Z) - When is Wall a Pared and when a Muro? -- Extracting Rules Governing
Lexical Selection [85.0262994506624]
本稿では,微細な語彙の区別を自動的に識別する手法を提案する。
我々は、これらの区別を説明する簡潔な記述を、人間と機械で読める形式で抽出する。
我々はこれらの記述を用いて、与えられた曖昧な単語を異なる可能な翻訳に翻訳する時、非ネイティブ話者に教える。
論文 参考訳(メタデータ) (2021-09-13T14:49:00Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Automated Transcription of Non-Latin Script Periodicals: A Case Study in
the Ottoman Turkish Print Archive [0.0]
本研究では,トランスクリバスプラットフォームを用いて,アラビア文字のオスマン文字(OT)で書かれた定期文字の自動書き起こしに深層学習手法を用いた。
我々は、OTテキストコレクションの歴史的状況と、20世紀後半のコーパスデジタル化からどのように除外されたかについて論じる。
この除外には2つの基本的な理由がある:アラビア語のスクリプト言語におけるOCRの技術的課題と、トルコの歴史的文脈におけるその文字の急速な放棄である。
論文 参考訳(メタデータ) (2020-11-02T17:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。