論文の概要: Probing Subphonemes in Morphology Models
- arxiv url: http://arxiv.org/abs/2505.11297v1
- Date: Fri, 16 May 2025 14:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.270154
- Title: Probing Subphonemes in Morphology Models
- Title(参考訳): 形態素モデルにおける部分音素の探索
- Authors: Gal Astrach, Yuval Pinter,
- Abstract要約: 音素を直接訓練したトランスフォーマーにおける音韻的特徴符号化の言語に依存しない探索手法を提案する。
音素の埋め込みにおいて,トルコ語における最終音素発声のような局所的な音韻的特徴がよく捉えられるのに対し,母音調和のような長距離依存は変圧器のエンコーダで表現されるのがよいことを示す。
- 参考スコア(独自算出の注目度): 3.937454839700144
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformers have achieved state-of-the-art performance in morphological inflection tasks, yet their ability to generalize across languages and morphological rules remains limited. One possible explanation for this behavior can be the degree to which these models are able to capture implicit phenomena at the phonological and subphonemic levels. We introduce a language-agnostic probing method to investigate phonological feature encoding in transformers trained directly on phonemes, and perform it across seven morphologically diverse languages. We show that phonological features which are local, such as final-obstruent devoicing in Turkish, are captured well in phoneme embeddings, whereas long-distance dependencies like vowel harmony are better represented in the transformer's encoder. Finally, we discuss how these findings inform empirical strategies for training morphological models, particularly regarding the role of subphonemic feature acquisition.
- Abstract(参考訳): トランスフォーマーは、モルフォロジー・インフレクション(英語版)タスクにおいて最先端のパフォーマンスを達成したが、言語をまたいで一般化する能力は限定的であり続けている。
この振る舞いの1つの可能な説明は、これらのモデルが音韻的および音韻的レベルにおいて暗黙的な現象を捉えることができる程度である。
本研究では,音素を直接訓練したトランスフォーマーにおける音韻的特徴の符号化を言語に依存しない探索法を提案し,それを7つの形態的多様言語で実行した。
音素の埋め込みにおいて,トルコ語における最終音素発声のような局所的な音韻的特徴がよく捉えられるのに対し,母音調和のような長距離依存は変圧器のエンコーダで表現されるのがよいことを示す。
最後に,これらの知見が形態学モデルを訓練するための経験的戦略,特にサブ音韻的特徴獲得の役割について考察する。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Homophone Disambiguation Reveals Patterns of Context Mixing in Speech
Transformers [12.44366147179659]
そこで本研究では,テキストモデルのための"context-mixing"の尺度を,音声言語のモデルに適用し,適用する方法について検討する。
このようなケーススタディに理想的な言語現象であるフランス語のホモフォニーを同定する。
その結果,エンコーダのみのモデルにおける表現は,これらのキューを効果的に組み込んで正しい転写を識別するのに対し,エンコーダ-デコーダモデルのエンコーダは,主にデコーダモジュールへのコンテキスト依存を捕捉するタスクを緩和することがわかった。
論文 参考訳(メタデータ) (2023-10-15T19:24:13Z) - Morphological Inflection with Phonological Features [7.245355976804435]
本研究は,形態素モデルがサブキャラクタの音韻的特徴にアクセスできる様々な方法で得られる性能への影響について検討する。
我々は、浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いて、標準グラフデータから音素データを抽出する。
論文 参考訳(メタデータ) (2023-06-21T21:34:39Z) - Exploring How Generative Adversarial Networks Learn Phonological
Representations [6.119392435448723]
GAN(Generative Adversarial Networks)は、音韻現象の表現を学習する。
我々は、フランス語と英語の母音において、GANがコントラスト的および非コントラスト的鼻音をエンコードする方法を分析する。
論文 参考訳(メタデータ) (2023-05-21T16:37:21Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - A phonetic model of non-native spoken word processing [40.018538874161756]
音韻学にアクセスできない音韻学習の計算モデルを1つまたは2つの言語で学習する。
まず、このモデルが、音声レベルおよび単語レベルの識別タスクにおいて予測可能な振る舞いを示すことを示す。
次に、音声による単語処理タスクでモデルをテストし、非母語話者で観察される単語処理の効果を説明するために音韻学は必要ないことを示した。
論文 参考訳(メタデータ) (2021-01-27T11:46:21Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。