論文の概要: Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect
- arxiv url: http://arxiv.org/abs/2602.16852v1
- Date: Wed, 18 Feb 2026 20:29:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.392504
- Title: Meenz bleibt Meenz, but Large Language Models Do Not Speak Its Dialect
- Title(参考訳): Meenz bleibt Meenz, しかし大きな言語モデルは方言を話さない
- Authors: Minh Duc Bui, Manuel Mager, Peter Herbert Kann, Katharina von der Wense,
- Abstract要約: メエンツェリッシュ(Meenzerisch)は、ドイツのマインツで話されている方言である。
Meenzerischは、他の多くのドイツの方言と共通する運命の絶望の瀬戸際にいる。
この研究は、メンツェリッシュに明示的に焦点をあてたNLPの分野における最初の研究である。
- 参考スコア(独自算出の注目度): 17.504351782064113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meenzerisch, the dialect spoken in the German city of Mainz, is also the traditional language of the Mainz carnival, a yearly celebration well known throughout Germany. However, Meenzerisch is on the verge of dying out-a fate it shares with many other German dialects. Natural language processing (NLP) has the potential to help with the preservation and revival efforts of languages and dialects. However, so far no NLP research has looked at Meenzerisch. This work presents the first research in the field of NLP that is explicitly focused on the dialect of Mainz. We introduce a digital dictionary-an NLP-ready dataset derived from an existing resource (Schramm, 1966)-to support researchers in modeling and benchmarking the language. It contains 2,351 words in the dialect paired with their meanings described in Standard German. We then use this dataset to answer the following research questions: (1) Can state-of-the-art large language models (LLMs) generate definitions for dialect words? (2) Can LLMs generate words in Meenzerisch, given their definitions? Our experiments show that LLMs can do neither: the best model for definitions reaches only 6.27% accuracy and the best word generation model's accuracy is 1.51%. We then conduct two additional experiments in order to see if accuracy is improved by few-shot learning and by extracting rules from the training set, which are then passed to the LLM. While those approaches are able to improve the results, accuracy remains below 10%. This highlights that additional resources and an intensification of research efforts focused on German dialects are desperately needed.
- Abstract(参考訳): メエンツェリッシュ(Meenzerisch)は、ドイツのマインツで話される方言で、マインツのカーニバルの伝統的な言語でもある。
しかし、メエンツェリッシュは、他の多くのドイツの方言と共通する運命の絶望に近づいている。
自然言語処理(NLP)は、言語や方言の保存と再生を支援する可能性がある。
しかし、これまでのところ、NLPの研究はMeenzerischを調査していない。
この研究は、マインツの方言に明示的に焦点をあてたNLPの分野における最初の研究である。
我々は既存のリソース(Schramm, 1966)から派生したデジタル辞書-NLP対応データセットを導入し、言語をモデリングし、ベンチマークする研究者を支援する。
これは、標準ドイツ語で記述された意味と組み合わせた方言の2,351語を含んでいる。
1)最先端の大規模言語モデル(LLM)は、方言の単語の定義を生成することができるか?
2) LLM は定義からメエンツェリッシュで単語を生成することができるか?
評価実験の結果, LLM の精度は6.27%であり, 単語生成モデルの精度は1.51%であることがわかった。
次に、数ショットの学習によって精度が向上するかどうかを確認し、トレーニングセットからルールを抽出し、LLMに渡されるかどうかを確認するために、2つの追加実験を行う。
これらのアプローチは結果を改善することができるが、精度は10%以下である。
このことは、ドイツの方言に焦点を当てた追加の資源と研究努力が必死に必要であることを強調している。
関連論文リスト
- Vision-Enabled LLMs in Historical Lexicography: Digitising and Enriching Estonian-German Dictionaries from the 17th and 18th Centuries [0.0]
本稿では,2022年から2025年にかけてエストニア語研究所で行われた大規模言語モデル(LLM)の適用に関する研究について述べる。
著者らは3つの主要な領域に対処する: 現代語形と意味を持つ歴史的辞書を充実させる; 視覚対応のLLMを使用して、ゴシック文字(Fraktur)で印刷されたソース上でテキスト認識を行う; 統一されたクロスソースデータセットを作成する準備をする。
論文 参考訳(メタデータ) (2025-10-09T08:29:22Z) - Make Every Letter Count: Building Dialect Variation Dictionaries from Monolingual Corpora [38.54622638611305]
我々はバイエルン語をケーススタディとして用い,Large Language Models(LLMs)の語彙的方言理解能力について検討する。
単言語データのみから方言変化辞書を生成するための新しいアノテーションフレームワークであるDiaLemmaを使用している。
我々は、9つの最先端のLLMがバイエルン語を、方言の翻訳、動詞の変種、あるいは与えられたドイツの補題の無関係な形式として、いかにうまく判断できるかを評価する。
論文 参考訳(メタデータ) (2025-09-22T14:49:08Z) - Are Lexicon-Based Tools Still the Gold Standard for Valence Analysis in Low-Resource Flemish? [0.0]
LIWCやPatternといった従来のレキシコンベースのツールは、長い間この領域の基本的な道具として機能してきた。
オランダ語話者102名を対象に,まず約25,000件のテキスト応答について検討した。
オランダ固有の3つのLLMの性能評価を行い, LIWCとPatternで生成した値と比較した。
本研究は,自然言語使用の複雑さを包括的に扱える,文化的・言語学的にカスタマイズされたモデル・ツールの開発に不可欠であることを示す。
論文 参考訳(メタデータ) (2025-06-04T16:31:37Z) - Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects [0.0]
バントゥー語族に属する4つの言語や方言のグループであるComorianのためのNLP技術の先駆者を目指しています。
我々のアプローチは、人間が母国語と異なる言語をほとんど、あるいは全く使わずに理解できれば、このプロセスを機械でモデル化することは、完全に可能であるという仮説に動機付けられています。
論文 参考訳(メタデータ) (2024-12-09T22:47:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。