論文の概要: VerChol -- Grammar-First Tokenization for Agglutinative Languages
- arxiv url: http://arxiv.org/abs/2603.05883v1
- Date: Fri, 06 Mar 2026 04:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.998334
- Title: VerChol -- Grammar-First Tokenization for Agglutinative Languages
- Title(参考訳): VerChol - 凝集型言語のための文法ファーストのトークン化
- Authors: Prabhu Raja,
- Abstract要約: トークン化は、すべての大規模言語モデル(LLM)パイプラインの基本的なステップである。
集約言語では、一つの単語がルート、時制、アスペクト、人、番号、性別合意、ケース、姿勢を1つの正書法単位にエンコードすることができる。
統計トークン化器は、これらの単語をバイトペアのチャンクに分解し、モルデム境界とトークン数を減らす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is the foundational step in all large language model (LLM) pipelines, yet the dominant approach Byte Pair Encoding (BPE) and its variants is inherently script agnostic and optimized for English like morphology. For agglutinative languages a typological class encompassing the Dravidian family (Tamil, Kannada, Telugu, Malayalam), Turkic languages (Turkish, Azerbaijani, Uzbek), Uralic languages (Finnish, Hungarian, Estonian), Korean, Japanese, Swahili, Basque, and others, a single word may encode root, tense, aspect, person, number, gender agreement, case, and postpositions into one orthographic unit. Statistical tokenizers fragment these words into byte pair chunks that sever morpheme boundaries and inflate token counts.
- Abstract(参考訳): トークン化は、すべての大きな言語モデル(LLM)パイプラインの基本的なステップであるが、Byte Pair Encoding(BPE)とその変種は本質的にスクリプトに依存しず、形態学のような英語に最適化されている。
凝集言語については、ドラヴィダ語族(タミル語、カンナダ語、テルグ語、マラヤラム語)、トルコ語(トルコ語、アゼルバイジャン語、ウズベク語)、ウラル語(フィンランド語、ハンガリー語、エストニア語)、韓国語、日本語、スワヒリ語、バスク語などを含む類型語では、1つの単語が根、緊張、アスペクト、人格、性別、契約、ケース、ポストを1つの正書法単位にエンコードすることができる。
統計トークン化器はこれらの単語をバイトペアのチャンクに分解し、モルデム境界を細分化し、トークン数をインフレートする。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Egalitarian Language Representation in Language Models: It All Begins with Tokenizers [0.0]
すべてのトークンライザが、Tamil、Sinhala、Hindiといった複雑なスクリプト言語に対して公正な表現を提供するわけではないことを示す。
本稿では,Grapheme Pair と呼ばれるグラフエムを組み込むことにより,Byte Pair アルゴリズムの改良を提案する。
実験の結果, 文字抽出は複雑なスクリプトに対して, バイトレベルのトークン化器よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-17T19:05:37Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - A multilabel approach to morphosyntactic probing [3.0013352260516744]
マルチリンガルBERTは多くの形態合成特徴を簡便かつ同時に抽出できることを示した。
ゼロショット転送設定で、6つの「ホールドアウト」言語のプローブを評価します。
論文 参考訳(メタデータ) (2021-04-17T06:24:04Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - MULTEXT-East [0.0]
このデータセットは広く文書化されており、研究目的で自由に利用できる。
ブルガリア語、クロアチア語、チェコ語、英語、エストニア語、ハンガリー語、マケドニア語、ペルシア語、ポーランド語、レシアン語、ルーマニア語、ロシア語、セルビア語、スロバキア語、スロベニア語、ウクライナ語を含む。
ジョージ・オーウェル(George Orwell)の小説「1984」のパラレルコーパスには、手書きのモルフォシンタクティックな記述とレムマが含まれている。
論文 参考訳(メタデータ) (2020-03-31T08:45:52Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。