論文の概要: Extracting Lexical Features from Dialects via Interpretable Dialect
Classifiers
- arxiv url: http://arxiv.org/abs/2402.17914v1
- Date: Tue, 27 Feb 2024 22:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 16:52:07.360456
- Title: Extracting Lexical Features from Dialects via Interpretable Dialect
Classifiers
- Title(参考訳): 解釈可能な方言分類器による方言の語彙的特徴の抽出
- Authors: Roy Xie, Orevaoghene Ahia, Yulia Tsvetkov, Antonios Anastasopoulos
- Abstract要約: 本稿では,解釈可能な方言を用いて,方言の語彙的特徴を識別する新しい手法を提案する。
本手法は,方言の変種に寄与する重要な言語固有の語彙の特徴を同定し,その同定に有効であることを示す。
- 参考スコア(独自算出の注目度): 47.80121654181264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying linguistic differences between dialects of a language often
requires expert knowledge and meticulous human analysis. This is largely due to
the complexity and nuance involved in studying various dialects. We present a
novel approach to extract distinguishing lexical features of dialects by
utilizing interpretable dialect classifiers, even in the absence of human
experts. We explore both post-hoc and intrinsic approaches to interpretability,
conduct experiments on Mandarin, Italian, and Low Saxon, and experimentally
demonstrate that our method successfully identifies key language-specific
lexical features that contribute to dialectal variations.
- Abstract(参考訳): 言語の方言間の言語的差異を特定するには、しばしば専門家の知識と細心の注意深い人間分析が必要である。
これは、様々な方言の研究に関わる複雑さとニュアンスが原因である。
本稿では,人間がいなくても解釈可能な方言分類器を用いて,方言の語彙特徴を識別する新しい手法を提案する。
本研究は,マンダリン,イタリア語,低サクソン語について実験を行い,方言変化に寄与する言語固有の語彙特徴の同定に成功していることを実験的に証明した。
関連論文リスト
- BabySLM: language-acquisition-friendly benchmark of self-supervised
spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。
語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。
テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文 参考訳(メタデータ) (2023-06-02T12:54:38Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文 参考訳(メタデータ) (2022-09-15T21:19:31Z) - AUTOLEX: An Automatic Framework for Linguistic Exploration [93.89709486642666]
本稿では言語学者による言語現象の簡潔な記述の発見と抽出を容易にするための自動フレームワークを提案する。
具体的には、この枠組みを用いて、形態的一致、ケースマーキング、単語順序の3つの現象について記述を抽出する。
本研究では,言語専門家の助けを借りて記述を評価し,人間の評価が不可能な場合に自動評価を行う手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T20:37:30Z) - A Latent-Variable Model for Intrinsic Probing [94.61336186402615]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z) - Rediscovering the Slavic Continuum in Representations Emerging from
Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。
本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文 参考訳(メタデータ) (2020-10-22T18:18:19Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。