論文の概要: LuxInstruct: A Cross-Lingual Instruction Tuning Dataset For Luxembourgish
- arxiv url: http://arxiv.org/abs/2510.07074v1
- Date: Wed, 08 Oct 2025 14:35:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.562242
- Title: LuxInstruct: A Cross-Lingual Instruction Tuning Dataset For Luxembourgish
- Title(参考訳): LuxInstruct:Luxembourgishのための言語横断的なインストラクションチューニングデータセット
- Authors: Fred Philippy, Laura Bernardy, Siwen Guo, Jacques Klein, Tegawendé F. Bissyandé,
- Abstract要約: 機械翻訳への伝統的な依存は、しばしば意味的な誤りと文化的な不正確さをもたらす。
我々は、機械翻訳に頼ることなく、ルクセンブルク語のための言語間命令チューニングデータセットを作成する。
英語、フランス語、ドイツ語からの整列したデータを活用することで、言語的・文化的ニュアンスを保存する高品質なデータセットを構築します。
- 参考スコア(独自算出の注目度): 11.26630017746721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has become a key technique for enhancing the performance of large language models, enabling them to better follow human prompts. However, low-resource languages such as Luxembourgish face severe limitations due to the lack of high-quality instruction datasets. Traditional reliance on machine translation often introduces semantic misalignment and cultural inaccuracies. In this work, we address these challenges by creating a cross-lingual instruction tuning dataset for Luxembourgish, without resorting to machine-generated translations into it. Instead, by leveraging aligned data from English, French, and German, we build a high-quality dataset that preserves linguistic and cultural nuances. We provide evidence that cross-lingual instruction tuning not only improves representational alignment across languages but also the model's generative capabilities in Luxembourgish. This highlights how cross-lingual data curation can avoid the common pitfalls of machine-translated data and directly benefit low-resource language development.
- Abstract(参考訳): インストラクションチューニングは、大規模言語モデルの性能を高めるための重要なテクニックとなり、人間のプロンプトをより良く追従することができるようになった。
しかし、Luxembourgishのような低リソース言語は、高品質な命令データセットが欠如しているため、厳しい制限に直面している。
伝統的な機械翻訳への依存は、しばしば意味的な誤りと文化的な不正確さをもたらす。
本研究では,Luxembourgishのための言語間命令チューニングデータセットを作成することで,機械による翻訳に頼ることなく,これらの課題に対処する。
代わりに、英語、フランス語、ドイツ語からの整列したデータを活用することで、言語と文化のニュアンスを保存する高品質なデータセットを構築します。
我々は,言語間の表現的アライメントを改善するだけでなく,ルクセンブルク語におけるモデルの生成能力を向上することを示す。
このことは、言語間のデータキュレーションが、機械翻訳されたデータの共通の落とし穴を回避し、低リソースの言語開発に直接利益をもたらすことを強調している。
関連論文リスト
- Text Generation Models for Luxembourgish with Limited Data: A Balanced Multilingual Strategy [7.59001382786429]
本稿では,Luxembourgishに着目した低表現言語のための言語モデル開発における課題について論じる。
本稿では,限定されたルクセンブルク語データと同等量のドイツ語とフランス語データを組み合わせた,T5アーキテクチャに基づく新しいテキスト生成モデルを提案する。
評価のために,Luxembourgishにとって最初のテキスト生成ベンチマークであるLuxGenを紹介する。
論文 参考訳(メタデータ) (2024-12-12T16:23:12Z) - LuxEmbedder: A Cross-Lingual Approach to Enhanced Luxembourgish Sentence Embeddings [8.839362558895594]
文の埋め込みモデルは並列データに大きく依存しており、Luxembourgishを含む多くの低リソース言語では不十分である。
この不足は、これらの言語に対する単言語および言語間文埋め込みモデルの最適部分性能をもたらす。
我々は、並列トレーニングデータセットに低リソース言語を含めることが、他の低リソース言語よりも有利であることを示す証拠を提示する。
論文 参考訳(メタデータ) (2024-12-04T14:02:12Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.90353059292894]
大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。
そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:45:23Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - InstructAlign: High-and-Low Resource Language Alignment via Continual
Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。
しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。
InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文 参考訳(メタデータ) (2023-05-23T02:51:34Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。