論文の概要: LuxIT: A Luxembourgish Instruction Tuning Dataset from Monolingual Seed Data
- arxiv url: http://arxiv.org/abs/2510.24434v1
- Date: Tue, 28 Oct 2025 14:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.213575
- Title: LuxIT: A Luxembourgish Instruction Tuning Dataset from Monolingual Seed Data
- Title(参考訳): LuxIT: モノリンガルシードデータからのルクセンブルク語教育チューニングデータセット
- Authors: Julian Valline, Cedric Lothritz, Jordi Cabot,
- Abstract要約: LuxITは、この課題を緩和するために開発されたLuxembourgishのための新しい単言語命令チューニングデータセットである。
我々は,Luxembourgishの習熟度を示すために選択されたDeepSeek-R1-0528を用いて,Luxembourgish原文のコーパスからデータセットを合成した。
- 参考スコア(独自算出の注目度): 2.383798778903081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effectiveness of instruction-tuned Large Language Models (LLMs) is often limited in low-resource linguistic settings due to a lack of high-quality training data. We introduce LuxIT, a novel, monolingual instruction tuning dataset for Luxembourgish developed to mitigate this challenge. We synthesize the dataset from a corpus of native Luxembourgish texts, utilizing DeepSeek-R1-0528, chosen for its shown proficiency in Luxembourgish. Following generation, we apply a quality assurance process, employing an LLM-as-a-judge approach. To investigate the practical utility of the dataset, we fine-tune several smaller-scale LLMs on LuxIT. Subsequent benchmarking against their base models on Luxembourgish language proficiency examinations, however, yields mixed results, with performance varying significantly across different models. LuxIT represents a critical contribution to Luxembourgish natural language processing and offers a replicable monolingual methodology, though our findings highlight the need for further research to optimize its application.
- Abstract(参考訳): 命令調整型大規模言語モデル(LLM)の有効性は、高品質な訓練データがないため、低リソースの言語環境において制限されることが多い。
本稿では,この課題を緩和するために開発されたLuxembourgishのための単言語命令チューニングデータセットであるLuxITを紹介する。
我々は,Luxembourgishの習熟度を示すために選択されたDeepSeek-R1-0528を用いて,Luxembourgish原文のコーパスからデータセットを合成した。
生成後,LLM-as-a-judgeアプローチを用いて品質保証プロセスを適用する。
このデータセットの実用性を検討するため、LuxIT上に複数の小型LCMを微調整する。
しかし、ルクセンブルク語の習熟度試験のベースモデルに対するその後のベンチマークでは、異なるモデル間で性能が著しく異なるため、様々な結果が得られている。
LuxITは、ルクセンブルクの自然言語処理への重要な貢献であり、複製可能なモノリンガルの方法論を提供しています。
関連論文リスト
- LuxInstruct: A Cross-Lingual Instruction Tuning Dataset For Luxembourgish [11.26630017746721]
機械翻訳への伝統的な依存は、しばしば意味的な誤りと文化的な不正確さをもたらす。
我々は、機械翻訳に頼ることなく、ルクセンブルク語のための言語間命令チューニングデータセットを作成する。
英語、フランス語、ドイツ語からの整列したデータを活用することで、言語的・文化的ニュアンスを保存する高品質なデータセットを構築します。
論文 参考訳(メタデータ) (2025-10-08T14:35:59Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy [7.59001382786429]
本稿では,Luxembourgishに着目した低表現言語のための言語モデル開発における課題について論じる。
本稿では,限定されたルクセンブルク語データと同等量のドイツ語とフランス語データを組み合わせた,T5アーキテクチャに基づく新しいテキスト生成モデルを提案する。
評価のために,Luxembourgishにとって最初のテキスト生成ベンチマークであるLuxGenを紹介する。
論文 参考訳(メタデータ) (2024-12-12T16:23:12Z) - LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings [8.839362558895594]
文の埋め込みモデルは並列データに大きく依存しており、Luxembourgishを含む多くの低リソース言語では不十分である。
この不足は、これらの言語に対する単言語および言語間文埋め込みモデルの最適部分性能をもたらす。
我々は、並列トレーニングデータセットに低リソース言語を含めることが、他の低リソース言語よりも有利であることを示す証拠を提示する。
論文 参考訳(メタデータ) (2024-12-04T14:02:12Z) - Assessing Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本稿では、標準英語とAAVEで1.2K以上の並列クエリペアを含むベンチマークであるReDialを紹介する。
我々は、GPT、Claude、Llama、Mistral、Phiモデルファミリーなど、広く使われているモデルを評価した。
我々の研究は、方言クエリにおけるLLMバイアスを分析するための体系的で客観的な枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。