論文の概要: Make Every Letter Count: Building Dialect Variation Dictionaries from Monolingual Corpora
- arxiv url: http://arxiv.org/abs/2509.17855v1
- Date: Mon, 22 Sep 2025 14:49:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.446317
- Title: Make Every Letter Count: Building Dialect Variation Dictionaries from Monolingual Corpora
- Title(参考訳): 単言語コーパスから辞書の変分辞書を作る
- Authors: Robert Litschko, Verena Blaschke, Diana Burkhardt, Barbara Plank, Diego Frassinelli,
- Abstract要約: 我々はバイエルン語をケーススタディとして用い,Large Language Models(LLMs)の語彙的方言理解能力について検討する。
単言語データのみから方言変化辞書を生成するための新しいアノテーションフレームワークであるDiaLemmaを使用している。
我々は、9つの最先端のLLMがバイエルン語を、方言の翻訳、動詞の変種、あるいは与えられたドイツの補題の無関係な形式として、いかにうまく判断できるかを評価する。
- 参考スコア(独自算出の注目度): 38.54622638611305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialects exhibit a substantial degree of variation due to the lack of a standard orthography. At the same time, the ability of Large Language Models (LLMs) to process dialects remains largely understudied. To address this gap, we use Bavarian as a case study and investigate the lexical dialect understanding capability of LLMs by examining how well they recognize and translate dialectal terms across different parts-of-speech. To this end, we introduce DiaLemma, a novel annotation framework for creating dialect variation dictionaries from monolingual data only, and use it to compile a ground truth dataset consisting of 100K human-annotated German-Bavarian word pairs. We evaluate how well nine state-of-the-art LLMs can judge Bavarian terms as dialect translations, inflected variants, or unrelated forms of a given German lemma. Our results show that LLMs perform best on nouns and lexically similar word pairs, and struggle most in distinguishing between direct translations and inflected variants. Interestingly, providing additional context in the form of example usages improves the translation performance, but reduces their ability to recognize dialect variants. This study highlights the limitations of LLMs in dealing with orthographic dialect variation and emphasizes the need for future work on adapting LLMs to dialects.
- Abstract(参考訳): 標準正書法が欠如しているため、方言は相当な変化を示す。
同時に、方言を処理できるLarge Language Models(LLMs)の能力は、まだほとんど検討されていない。
このギャップに対処するために、我々はバイエルン語を事例研究として用い、LLMの語彙的方言理解能力について検討し、異なる部分の方言用語をいかに認識し、翻訳するかを検討する。
この目的のために、単言語データのみから方言変用辞書を作成するための新しいアノテーションフレームワークであるDiaLemmaを導入し、それを100万の人間注釈付きドイツ語とバヴァリア語の単語ペアからなる基底真実データセットのコンパイルに利用した。
我々は、9つの最先端のLLMがバイエルン語を、方言の翻訳、動詞の変種、または与えられたドイツの補題の無関係な形式として、いかにうまく判断できるかを評価する。
以上の結果から,LLMは名詞や語彙的に類似した単語対で最善を尽くし,直接翻訳と屈折変種を区別するのに最も苦労していることが明らかとなった。
興味深いことに、サンプル使用法という形で追加のコンテキストを提供することで、翻訳性能は向上するが、方言の変種を認識する能力は低下する。
本研究は,LLMの方言変化に対処する際の限界を強調し,LLMの方言適応に向けた今後の取り組みの必要性を強調した。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Disparities in LLM Reasoning Accuracy and Explanations: A Case Study on African American English [66.97110551643722]
本研究では,Large Language Models (LLMs) 推論タスクにおける方言の相違について検討する。
LLMは、AAE入力に対するより正確な応答とより単純な推論チェーンと説明を生成する。
これらの知見は、LLMの処理方法と異なる言語品種の理由の体系的差異を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-06T05:15:34Z) - Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing [19.6191088446367]
本研究は、英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート、非コニャート、および言語間ホモグラフに焦点を当てる。
我々は,多言語大言語モデル (LLM) がこのような現象にどう対処するかを,英語・スペイン語・英語・フランス語・英語・ドイツ語のコニャート,非コニャート,言語間ホモグラフに焦点をあてて評価する。
我々は、英語と非英語のホモグラフを理解するための異なる戦略を選択するモデルを見つけ、言語間のあいまいさを扱う統一的なアプローチが欠如していることを強調した。
論文 参考訳(メタデータ) (2025-01-15T20:22:35Z) - Randomly Sampled Language Reasoning Problems Elucidate Limitations of In-Context Learning [9.75748930802634]
機械学習の性能を向上させるために,テキスト内学習の能力について検討する。
非常に単純なドメインを考える: 単純な言語タスクにおける次のトークン予測。
この課題において LLM は n-gram モデルに一様に劣ることがわかった。
論文 参考訳(メタデータ) (2025-01-06T07:57:51Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。