論文の概要: BabyLM's First Words: Word Segmentation as a Phonological Probing Task
- arxiv url: http://arxiv.org/abs/2504.03338v2
- Date: Mon, 14 Apr 2025 15:12:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:46:00.577607
- Title: BabyLM's First Words: Word Segmentation as a Phonological Probing Task
- Title(参考訳): BabyLMの最初の単語:音韻探索課題としての単語セグメンテーション
- Authors: Zébulon Goriely, Paula Buttery,
- Abstract要約: 単語分割が音韻探索のタスクとしてどのように使われるかを示す。
本研究では,31言語にまたがる児童指向音声で学習した音素ベース言語モデルから学習した表現について検討する。
- 参考スコア(独自算出の注目度): 2.335764524038488
- License:
- Abstract: Language models provide a key framework for studying linguistic theories based on prediction, but phonological analysis using large language models (LLMs) is difficult; there are few phonological benchmarks beyond English and the standard input representation used in LLMs (subwords of graphemes) is not suitable for analyzing the representation of phonemes. In this work, we demonstrate how word segmentation can be used as a phonological probing task, allowing us to study the representations learned by phoneme-based language models trained on child-directed speech across 31 languages. Following computational models of word segmentation, we present unsupervised methods for extracting word boundaries from a trained model using the observation that prediction-error peaks at the start of words. We also use linear probes to identify that these models implicitly track word boundaries, even when they do not appear in training. This cross-lingual work corroborates statistical learning theories of acquisition and empirically motivates new methods for training subword tokenizers.
- Abstract(参考訳): 言語モデルは、予測に基づいて言語理論を研究する上で重要な枠組みを提供するが、大きな言語モデル(LLM)を用いた音韻学的分析は困難であり、英語以外の音韻学的ベンチマークは少なく、LLM(Graphemのサブワード)で使用される標準入力表現は音素の表現を解析するのに適さない。
そこで本研究では,31言語を対象に学習された音素に基づく言語モデルを用いて,単語分割を音韻探索のタスクとして利用できることを示す。
単語セグメンテーションの計算モデルに従うと、単語の開始時に予測エラーがピークとなるという観測を用いて、訓練されたモデルから単語境界を抽出する教師なし手法を提案する。
また、線形プローブを用いて、トレーニング中に現れない場合でも、これらのモデルが単語境界を暗黙的に追跡することを示す。
この言語横断的な研究は、獲得に関する統計的学習理論を裏付け、サブワードトークンライザを訓練するための新しい手法を経験的に動機付けている。
関連論文リスト
- Small Language Models Also Work With Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
トークン化のない,音素および音素に基づく言語モデルにより,強力な言語性能が得られることを示す。
以上の結果から,より言語学的に妥当な言語モデルを作成する上で,有望な方向性が示唆された。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists [18.138642719651994]
自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
論文 参考訳(メタデータ) (2023-08-09T11:32:16Z) - Morphological Inflection with Phonological Features [7.245355976804435]
本研究は,形態素モデルがサブキャラクタの音韻的特徴にアクセスできる様々な方法で得られる性能への影響について検討する。
我々は、浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いて、標準グラフデータから音素データを抽出する。
論文 参考訳(メタデータ) (2023-06-21T21:34:39Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文 参考訳(メタデータ) (2021-09-21T11:37:08Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A phonetic model of non-native spoken word processing [40.018538874161756]
音韻学にアクセスできない音韻学習の計算モデルを1つまたは2つの言語で学習する。
まず、このモデルが、音声レベルおよび単語レベルの識別タスクにおいて予測可能な振る舞いを示すことを示す。
次に、音声による単語処理タスクでモデルをテストし、非母語話者で観察される単語処理の効果を説明するために音韻学は必要ないことを示した。
論文 参考訳(メタデータ) (2021-01-27T11:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。