論文の概要: A Subword Embedding Approach for Variation Detection in Luxembourgish User Comments
- arxiv url: http://arxiv.org/abs/2602.11795v1
- Date: Thu, 12 Feb 2026 10:19:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.767052
- Title: A Subword Embedding Approach for Variation Detection in Luxembourgish User Comments
- Title(参考訳): ルクセンブルク語利用者コメントにおける変分検出のためのサブワード埋め込み手法
- Authors: Anne-Marie Lutgen, Alistair Plum, Christoph Purschke,
- Abstract要約: 本稿では,事前正規化や事前定義された変分リストに頼ることなく,変分を検出するための埋め込み型アプローチを提案する。
この方法は、コサインとn-gramの類似性の組み合わせにより、原文およびグループ関連フォームへのサブワード埋め込みを訓練する。
ルクセンブルク語のユーザーコメントの大規模なコーパスを用いて、このアプローチは方言や社会言語学の研究で記述されたパターンと一致する広範な語彙的および正書法的なバリエーションを明らかにする。
- 参考スコア(独自算出の注目度): 2.4384521157164345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an embedding-based approach to detecting variation without relying on prior normalisation or predefined variant lists. The method trains subword embeddings on raw text and groups related forms through combined cosine and n-gram similarity. This allows spelling and morphological diversity to be examined and analysed as linguistic structure rather than treated as noise. Using a large corpus of Luxembourgish user comments, the approach uncovers extensive lexical and orthographic variation that aligns with patterns described in dialectal and sociolinguistic research. The induced families capture systematic correspondences and highlight areas of regional and stylistic differentiation. The procedure does not strictly require manual annotation, but does produce transparent clusters that support both quantitative and qualitative analysis. The results demonstrate that distributional modelling can reveal meaningful patterns of variation even in ''noisy'' or low-resource settings, offering a reproducible methodological framework for studying language variety in multilingual and small-language contexts.
- Abstract(参考訳): 本稿では,事前正規化や事前定義された変分リストに頼ることなく,変分を検出するための埋め込み型アプローチを提案する。
この方法は、コサインとn-gramの類似性の組み合わせにより、原文およびグループ関連フォームへのサブワード埋め込みを訓練する。
これにより、スペルや形態的多様性は、ノイズとして扱われるのではなく、言語構造として調査され分析される。
ルクセンブルク語のユーザーコメントの大規模なコーパスを用いて、このアプローチは方言や社会言語学の研究で記述されたパターンと一致する広範な語彙的および正書法的なバリエーションを明らかにする。
誘導された家族は、体系的な対応を捉え、地域的および様式的な分化の領域を強調する。
この手順は厳密には手動のアノテーションを必要としないが、定量分析と定性解析の両方をサポートする透明なクラスタを生成する。
その結果,「ノイズ」や低リソース設定においても,分散モデリングによって意味のある変動パターンが明らかとなり,多言語・小言語文脈における言語多様性研究のための再現可能な方法論的枠組みが提供されることがわかった。
関連論文リスト
- An Interpretable Deep Learning Approach for Morphological Script Type Analysis [15.142597136864618]
本稿では,形態素スクリプト型解析に対する解釈可能な深層学習手法を提案する。
より正確には、我々は同等の文字のプロトタイプを学ぶために、ディープ・インスタンス・セグメンテーション法を適用する。
我々は、A. Derolez が定式化した Textualis Formata スクリプトタイプとその2つのサブタイプに適用することで、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2024-08-20T19:15:06Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in
Low-Resource English Varieties [3.3536302616846734]
コーパス誘導編集による効率的なコントラストセットの生成とフィルタリングを行う。
我々は、インド英語とアフリカ系アメリカ人の英語の特徴検出を改善し、言語研究をいかに支援できるかを実証し、他の研究者が使用するための微調整されたモデルをリリースすることを示した。
論文 参考訳(メタデータ) (2022-09-15T21:19:31Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。