Fugu-MT 論文翻訳(概要): Extracting Lexical Features from Dialects via Interpretable Dialect Classifiers

論文の概要: Extracting Lexical Features from Dialects via Interpretable Dialect Classifiers

arxiv url: http://arxiv.org/abs/2402.17914v1
Date: Tue, 27 Feb 2024 22:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 16:52:07.360456
Title: Extracting Lexical Features from Dialects via Interpretable Dialect Classifiers
Title（参考訳）: 解釈可能な方言分類器による方言の語彙的特徴の抽出
Authors: Roy Xie, Orevaoghene Ahia, Yulia Tsvetkov, Antonios Anastasopoulos
Abstract要約: 本稿では,解釈可能な方言を用いて,方言の語彙的特徴を識別する新しい手法を提案する。本手法は,方言の変種に寄与する重要な言語固有の語彙の特徴を同定し,その同定に有効であることを示す。
参考スコア（独自算出の注目度）: 47.80121654181264
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identifying linguistic differences between dialects of a language often requires expert knowledge and meticulous human analysis. This is largely due to the complexity and nuance involved in studying various dialects. We present a novel approach to extract distinguishing lexical features of dialects by utilizing interpretable dialect classifiers, even in the absence of human experts. We explore both post-hoc and intrinsic approaches to interpretability, conduct experiments on Mandarin, Italian, and Low Saxon, and experimentally demonstrate that our method successfully identifies key language-specific lexical features that contribute to dialectal variations.
Abstract（参考訳）: 言語の方言間の言語的差異を特定するには、しばしば専門家の知識と細心の注意深い人間分析が必要である。これは、様々な方言の研究に関わる複雑さとニュアンスが原因である。本稿では,人間がいなくても解釈可能な方言分類器を用いて,方言の語彙特徴を識別する新しい手法を提案する。本研究は,マンダリン,イタリア語,低サクソン語について実験を行い,方言変化に寄与する言語固有の語彙特徴の同定に成功していることを実験的に証明した。

関連論文リスト

Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
Disentangling Dialect from Social Bias via Multitask Learning to Improve Fairness [16.746758715820324]
本稿では,構文的および語彙的バリエーションを組み込む補助課題として,方言をモデル化するマルチタスク学習手法を提案する。アフリカ系アメリカ人の英語方言を用いた実験では、共通学習アプローチと方言モデリングを補完することで、その公正さが向上することを示す実証的証拠を提供する。その結果、マルチタスク学習は最先端の性能を達成し、偏りのある言語の性質をより確実に検出するのに役立つことが示唆された。
論文参考訳（メタデータ） (2024-06-14T12:39:39Z)
Explainability of machine learning approaches in forensic linguistics: a case study in geolinguistic authorship profiling [46.58131072375399]
法医学的文脈を考慮した機械学習手法の説明可能性について検討する。我々は、ドイツ語圏のソーシャルメディアデータに基づく未知のテキストのジオ言語的プロファイリングの手段として、多種多様な分類に焦点を当てた。抽出した語彙的特徴がそれぞれの品種を実際に代表しており、訓練されたモデルは分類の場所名にも依存していることに注意する。
論文参考訳（メタデータ） (2024-04-29T08:52:52Z)
BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models [56.93604813379634]
音声表現を学習するための自己指導技術は、人間のラベルを必要とせずに、音声への露出から言語能力を高めることが示されている。語彙および構文レベルで音声言語モデルを探索するために,言語習得に親しみやすいベンチマークを提案する。テキストと音声のギャップを埋めることと、クリーンな音声とその内話のギャップを埋めることである。
論文参考訳（メタデータ） (2023-06-02T12:54:38Z)
Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文参考訳（メタデータ） (2022-09-15T21:19:31Z)
A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文参考訳（メタデータ） (2022-01-20T15:01:12Z)
Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文参考訳（メタデータ） (2020-11-11T01:44:09Z)
Rediscovering the Slavic Continuum in Representations Emerging from Neural Models of Spoken Language Identification [16.369477141866405]
音声信号におけるスラヴ語識別のためのニューラルモデルを提案する。本稿では,言語関連性の客観的尺度を反映しているかどうかを調査するために,その創発的表現を分析した。
論文参考訳（メタデータ） (2020-10-22T18:18:19Z)
Linguistic Typology Features from Text: Inferring the Sparse Features of World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。様々な言語型の特徴を確実に予測できることを示す。
論文参考訳（メタデータ） (2020-04-30T21:00:53Z)
Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文参考訳（メタデータ） (2020-04-29T03:34:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。