論文の概要: Resource-Lean Lexicon Induction for German Dialects
- arxiv url: http://arxiv.org/abs/2604.23824v1
- Date: Sun, 26 Apr 2026 18:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.575953
- Title: Resource-Lean Lexicon Induction for German Dialects
- Title(参考訳): ドイツ語方言におけるリソースリーレキシコン誘導
- Authors: Robert Litschko, Barbara Plank, Diego Frassinelli,
- Abstract要約: 文字列類似性の特徴を訓練した統計モデルは、ドイツ語の方言辞書を誘導するのに驚くほど効果的であることを示す。
それらは大きな言語モデルより優れ、クロスダイアレクト転送を可能にし、軽量なデータ駆動型代替手段を提供する。
方言の資源不足に触発され、異なるドイツ語方言間でモデルがどの程度移動するかをさらに調査する。
- 参考スコア(独自算出の注目度): 42.23792930877588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic induction of high-quality dictionaries is essential for building lexical resources, yet low-resource languages and dialects pose several challenges: limited access to annotators, high degree of spelling variations, and poor performance of large language models (LLMs). We empirically show that statistical models (random forests) trained on string similarity features are surprisingly effective for inducing German dialect lexicons. They outperform LLMs, enable cross-dialect transfer, and offer a lightweight data-driven alternative. We evaluate our models intrinsically on bilingual lexicon induction (BLI) and extrinsically on dialect information retrieval (IR). On BLI, random forests outperform Mistral-123b while being more resource-lean. On dialect IR with BM25, using our dialect dictionaries for query expansion yields relative improvements of up to 28.9% in nDCG@10 and 50.7% in Recall@100. Motivated by the resource scarcity in dialects, we further investigate the extent to which models transfer across different German dialects, and their performance under varying amounts of training data.
- Abstract(参考訳): 語彙資源の構築には高品質な辞書の自動生成が不可欠であるが、低リソース言語や方言には、アノテーションへのアクセスの制限、スペルの変化の度合いの向上、大規模言語モデル(LLM)の性能の低下など、いくつかの課題がある。
文字列類似性の特徴を訓練した統計モデル(ランダム林)が、ドイツの方言辞書を誘導するのに驚くほど有効であることを示す。
LLMを上回り、クロスダイアレクト転送を可能にし、軽量なデータ駆動型代替手段を提供する。
本稿では,バイリンガル語彙誘導(BLI)と方言情報検索(IR)を内在的に評価する。
BLIでは、無作為な森林がミストラル-123bを上回り、資源に恵まれている。
BM25を用いた方言IRでは、我々の方言辞書をクエリ拡張に用いると、nDCG@10では28.9%、Recall@100では50.7%の相対的な改善が得られる。
方言の資源不足に触発されて、異なるドイツ語方言間でモデルが移行する程度と、その性能を様々な訓練データで調べる。
関連論文リスト
- Make Every Letter Count: Building Dialect Variation Dictionaries from Monolingual Corpora [38.54622638611305]
我々はバイエルン語をケーススタディとして用い,Large Language Models(LLMs)の語彙的方言理解能力について検討する。
単言語データのみから方言変化辞書を生成するための新しいアノテーションフレームワークであるDiaLemmaを使用している。
我々は、9つの最先端のLLMがバイエルン語を、方言の翻訳、動詞の変種、あるいは与えられたドイツの補題の無関係な形式として、いかにうまく判断できるかを評価する。
論文 参考訳(メタデータ) (2025-09-22T14:49:08Z) - Leveraging LLM and Self-Supervised Training Models for Speech Recognition in Chinese Dialects: A Comparative Analysis [4.774607166378613]
自己教師付き事前トレーニングと大規模言語モデル(LLM)を組み合わせることで、低リソースシナリオにおけるASRのパフォーマンスを効果的に向上させることができる。
我々は、ラベル付き方言とアクセント付き音声データの30,000時間でData2vec2モデルを事前訓練し、教師付きデータセット上で4万時間アライメントトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-27T12:50:55Z) - Cross-Dialect Information Retrieval: Information Access in Low-Resource and High-Variance Languages [23.947119147068925]
地域や文化特有の知識は、方言で書かれた文書にしか見つからない。
我々は、ウィキペディアから抽出された7つのドイツ語方言からなる最初のドイツ語方言検索データセット、WikiDIRを紹介した。
マルチリンガルエンコーダを用いたゼロショット・クロスリンガル変換手法は, 極低リソース化には適さないことを示す。
論文 参考訳(メタデータ) (2024-12-17T11:21:09Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。