論文の概要: Do LLMs Know What Luxembourgish Borrows? Probing Lexical Neology in Low-Resource Multilingual Models
- arxiv url: http://arxiv.org/abs/2605.21227v1
- Date: Wed, 20 May 2026 14:19:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.720402
- Title: Do LLMs Know What Luxembourgish Borrows? Probing Lexical Neology in Low-Resource Multilingual Models
- Title(参考訳): LLMはLuxembourgish Borrowsを知っていますか?
- Authors: Nina Hosseini-Kivanani,
- Abstract要約: 大型言語モデル (LLM) は、小さな接触言語での補助を書くのにますます使われている。
本研究では、ルクセンブルク語の多言語データにおける語彙的革新の一形態として借用を検討する。
- 参考スコア(独自算出の注目度): 0.533024001730262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used for writing assistance in small contact languages, yet it is unclear whether they respect community norms around lexical borrowing and neology. We introduce LexNeo-Bench, a 3{,}050-instance token-level benchmark derived from LuxBorrow, a large-scale Luxembourgish news corpus, where target tokens are labelled as native or as French, German, or English borrowings. Using this benchmark, we probe three multilingual LLMs across 34 prompt settings on two tasks: borrowing type classification and a binary lexical-innovation proxy (borrowing versus native). Without external context, models perform only slightly above chance on borrowing classification, so we construct a linguistic knowledge graph that encodes donor language, morphological patterns, and lexical analogues, and inject instance-specific subgraphs into the prompt. Knowledge-graph prompts raise borrowing classification accuracy from 25 -- 35\% up to 71 -- 81\% and largely close the gap between small and large models, while leaving neology detection difficult and sensitive to few-shot design. Our results show that lexicon-aware prompting is highly beneficial for robust borrowing judgments in low-resource contact languages and that lexical resources can serve as structured context for LLM evaluation. This study was carried out within the ENEOLI COST Action and examines borrowing as a form of lexical innovation in multilingual Luxembourgish data.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 語彙借用やネロジに関するコミュニティ規範を尊重するかどうかは不明だが, 小接触言語での補助書作成に利用されつつある。
我々はLuxBorrowから派生した3{,}050-instanceトークンレベルのベンチマークであるLexNeo-Benchを紹介した。
このベンチマークを用いて、34のタスクに対して、3つの多言語 LLM を探索し、型分類の借用とバイナリ語彙の更新プロキシ(ボローリング対ネイティブ)の2つのタスクについてプロンプト設定を行う。
そこで我々はドナー言語,形態的パターン,語彙的類似を符号化した言語知識グラフを構築し,インスタンス固有の部分グラフをプロンプトに注入する。
知識グラフのプロンプトは借用分類の精度を25 - 35 %から71 -- 81 %に引き上げ、小型モデルと大型モデルのギャップをほとんど埋める一方で、ネロジ検出は困難で、少数ショットの設計に敏感なままである。
この結果から,レキシコン・アウェア・プロンプトは低リソース接触言語におけるロバストな借用判断に極めて有用であり,レキシコン・アウェア・プロンプトはLLM評価のための構造化コンテキストとして有効であることが示唆された。
本研究はENEOLI COST Actionで実施され,多言語Luxembourgishデータにおける語彙的革新の一形態として借用について検討した。
関連論文リスト
- LLM Probe: Evaluating LLMs for Low-Resource Languages [6.177998679139308]
本稿では,低リソース言語における大規模言語モデル (LLM) の言語能力を評価するための語彙ベースアセスメントフレームワークを提案する。
このフレームワークは、語彙アライメント、音声認識、モルフォシンタクティック・プロービング、翻訳精度の4つの領域にわたるモデルを分析する。
論文 参考訳(メタデータ) (2026-03-31T10:03:38Z) - LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings [8.839362558895594]
文の埋め込みモデルは並列データに大きく依存しており、Luxembourgishを含む多くの低リソース言語では不十分である。
この不足は、これらの言語に対する単言語および言語間文埋め込みモデルの最適部分性能をもたらす。
我々は、並列トレーニングデータセットに低リソース言語を含めることが、他の低リソース言語よりも有利であることを示す証拠を提示する。
論文 参考訳(メタデータ) (2024-12-04T14:02:12Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - Generating bilingual example sentences with large language models as lexicography assistants [2.6550899846546527]
本稿では,資源レベルの異なる言語におけるバイリンガル辞書の例文の生成と評価におけるLLMの性能について検討する。
GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。
論文 参考訳(メタデータ) (2024-10-04T06:45:48Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。