論文の概要: HeceTokenizer: A Syllable-Based Tokenization Approach for Turkish Retrieval
- arxiv url: http://arxiv.org/abs/2604.10665v1
- Date: Sun, 12 Apr 2026 14:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.161039
- Title: HeceTokenizer: A Syllable-Based Tokenization Approach for Turkish Retrieval
- Title(参考訳): HeceTokenizer: トルコ検索のためのシラブルベースのトークン化アプローチ
- Authors: Senol Gulgonul,
- Abstract要約: HeceTokenizerはトルコ語の音節ベースのトークンである。
言語における決定論的6パターン音韻構造を利用して、閉じた外語彙(OOV)のない語彙を構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: HeceTokenizer is a syllable-based tokenizer for Turkish that exploits the deterministic six-pattern phonological structure of the language to construct a closed, out-of-vocabulary (OOV)-free vocabulary of approximately 8,000 unique syllable types. A BERT-tiny encoder (1.5M parameters) is trained from scratch on a subset of Turkish Wikipedia using a masked language modeling objective and evaluated on the TQuAD retrieval benchmark using Recall@5. Combined with a fine-grained chunk-based retrieval strategy, HeceTokenizer achieves 50.3% Recall@5, surpassing the 46.92% reported by a morphology-driven baseline that uses a 200 times larger model. These results suggest that the phonological regularity of Turkish syllables provides a strong and resource-light inductive bias for retrieval tasks.
- Abstract(参考訳): HeceTokenizerはトルコ語のための音節ベースのトークンーであり、決定論的6パターンの音韻構造を利用して、約8,000のユニークな音節型の閉母音(OOV)のない語彙を構築する。
BERT-tiny encoder(1.5Mパラメータ)は、トルコ語ウィキペディアのサブセットをマスク言語モデリングの目的を用いてスクラッチから訓練し、Recall@5を用いてTQuAD検索ベンチマークで評価する。
粒度の細かいチャンクベースの検索戦略と組み合わせて、HeceTokenizerは50.3%のRecall@5を達成する。
これらの結果から,トルコ語の音節の音韻的規則性は,検索作業に強い,資源に光る帰納バイアスをもたらすことが示唆された。
関連論文リスト
- SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction [0.00954904463032233]
形態学的に豊かな低リソース言語のためのキーフレーズ抽出は現在も検討されている。
著者指定キーフレーズを用いた227,432の科学的要約データセットを構築した。
KeyLLMは、著者によって割り当てられた標準形式に近いキーフレーズを生成する。
統計的手法では,形態的ミスマッチが主流の障害モードであることがわかった。
論文 参考訳(メタデータ) (2026-03-16T16:47:45Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi [0.29687381456163997]
本研究では,トルコ語などの形態学的に豊かな低リソース言語に特有なトークン化問題に対処する新たな評価フレームワークを提案する。
我々は,語彙サイズ,トークン数,処理時間,言語固有のトークンパーセンテージ(%TR),トークン純度(%Pure)に基づいてトークン化器の評価を行った。
分析の結果,言語固有のトークンパーセンテージは,トークン純度よりも下流のパフォーマンス(MMLUスコアなど)との相関が強いことが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T16:26:42Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。