論文の概要: How Tokenization Limits Phonological Knowledge Representation in Language Models and How to Improve Them
- arxiv url: http://arxiv.org/abs/2604.17105v1
- Date: Sat, 18 Apr 2026 18:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.333161
- Title: How Tokenization Limits Phonological Knowledge Representation in Language Models and How to Improve Them
- Title(参考訳): トークン化が言語モデルにおける音韻的知識表現を制限する方法とテーマ改善の方法
- Authors: Disen Liao, Freda Shi,
- Abstract要約: サブワードベースのトークン化は局所的およびグローバルな音韻的特徴の符号化を系統的に弱めることを示す。
言語モデルに音韻的認識を注入する軽量なIPAに基づく微調整法を提案する。
- 参考スコア(独自算出の注目度): 16.77683912171153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is the first step in every language model (LM), yet it never takes the sounds of words into account. We investigate how tokenization influences text-only LMs' ability to represent phonological knowledge. Through a series of probing experiments, we show that subword-based tokenization systematically weakens the encoding of both local (e.g., rhyme) and global (e.g., syllabification) phonological features. To quantify this effect, we introduce the syllabification-tokenization alignment distance (STAD), a metric that measures the misalignment between a model's tokenization and the natural syllable boundaries of words, and find that higher misalignment correlates with poorer phonological representations, providing a simple diagnostic for phonology-aware tokenization. To address these limitations, we propose a lightweight IPA-based fine-tuning method that infuses phonological awareness into LMs, leading to consistent improvements across three phonology-related tasks while largely preserving math and general reasoning ability, with 1.1\% and 0.9\% drops on GSM8K and MMLU, respectively.
- Abstract(参考訳): トークン化は全ての言語モデル(LM)の最初のステップであるが、言葉の音を考慮に入れない。
トークン化が音韻的知識を表現するためのテキストのみのLMの能力にどのように影響するかを検討する。
一連の探索実験を通して,サブワードベースのトークン化が局所(eg,rhyme)と大域(eg,syllabification)の音韻的特徴の両方の符号化を体系的に弱めることを示す。
この効果を定量化するために、モデルのトークン化と単語の自然な音節境界とのミスアライメントを測定する指標であるSyllabification-tokenization alignment distance (STAD)を導入する。
これらの制約に対処するため,本研究では,GSM8K と MMLU にそれぞれ 1.1\% と 0.9\% の低下を伴い,3つの音韻学関連課題に一貫した改善をもたらす,軽量な IPA ベースの微調整手法を提案する。
関連論文リスト
- Speech Codec Probing from Semantic and Phonetic Perspectives [49.01048570474675]
音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
新たな証拠は、音声表現において「意味」と呼ばれるものは、テキスト由来の意味論と一致しないことを示している。
論文 参考訳(メタデータ) (2026-03-11T03:32:25Z) - Multilingual Dysarthric Speech Assessment Using Universal Phone Recognition and Language-Specific Phonemic Contrast Modeling [22.333214778384487]
変形を伴う神経疾患の流行は、自動的な知能評価方法の必要性を動機付けている。
本稿では,音声認識と言語固有の音素解釈を統合した多言語音素生成評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T03:12:11Z) - Layer-wise Minimal Pair Probing Reveals Contextual Grammatical-Conceptual Hierarchy in Speech Representations [18.74784108693223]
トランスフォーマーに基づく言語モデル(SLM)は、音声認識と理解を大幅に改善した。
SLMが如何に構文的・概念的特徴をエンコードするかはいまだ不明である。
本研究は,SLMにおける文脈的構文的特徴と意味的特徴の存在を体系的に評価した最初のものである。
論文 参考訳(メタデータ) (2025-09-19T06:29:33Z) - Tokens with Meaning: A Hybrid Tokenization Approach for NLP [0.2826977330147589]
自然言語処理(NLP)におけるトークン化の役割
規則に基づく形態素解析と統計的サブワードセグメンテーションを組み合わせたハイブリッドトークン化フレームワークを提案する。
本手法は, 音韻正規化, ルートアフィックス, および形態素保存と語彙効率のバランスをとる新しいアルゴリズムを用いる。
論文 参考訳(メタデータ) (2025-08-19T22:17:42Z) - PhoniTale: Phonologically Grounded Mnemonic Generation for Typologically Distant Language Pairs [51.745816131869674]
大規模言語モデル (LLM) は、学習者の第一言語 (L1) から類似したキーワードを活用して、L2語彙の獲得を支援することで、キーワード・メニーモニックを生成するために使われている。
本稿では,IPAに基づく音韻的適応と音節認識アライメントを実行し,L1キーワードシーケンスを検索する新しい言語間メタモニック生成システムであるPhoniTaleを提案する。
以上の結果から,PhoniTaleは従来の自動手法を一貫して上回り,人手によるメニーモニックに匹敵する品質を実現していることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:50:12Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。