論文の概要: InstructLR: A Scalable Approach to Create Instruction Dataset for Under-Resourced Languages
- arxiv url: http://arxiv.org/abs/2512.02213v1
- Date: Mon, 01 Dec 2025 21:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.613131
- Title: InstructLR: A Scalable Approach to Create Instruction Dataset for Under-Resourced Languages
- Title(参考訳): InstructLR: アンダーソース言語のためのインストラクションデータセットを作成するためのスケーラブルなアプローチ
- Authors: Mamadou K. Keita, Sebastien Diarra, Christopher Homan, Seydou Diallo,
- Abstract要約: 本稿では,低リソース言語(LRL)のための高品質な命令データセットを生成するための新しいフレームワークであるInstructLRを紹介する。
提案手法は,LLMによるテキスト生成と2層品質フィルタリング機構を統合する。
InstructLRはZarma Instruct-50k、Bambara Instruct-50k、Fulfulde Instruct-50kという3つのマルチドメイン命令ベンチマークの作成を容易にする。
- 参考スコア(独自算出の注目度): 5.046479786355341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective text generation and chat interfaces for low-resource languages (LRLs) remain a challenge for state-of-the-art large language models (LLMs) to support. This is mainly due to the difficulty of curating high-quality instruction datasets for LRLs, a limitation prevalent in the languages spoken across the African continent and other regions. Current approaches, such as automated translation and synthetic data generation, frequently yield outputs that lack fluency or even orthographic consistency. In this paper, we introduce InstructLR, a novel framework designed to generate high-quality instruction datasets for LRLs. Our approach integrates LLM-driven text generation with a dual-layer quality filtering mechanism: an automated filtering layer based on retrieval-augmented-generation (RAG)-based n-shot prompting, and a human-in-the-loop validation layer. Drawing inspiration from benchmarks such as MMLU in task definition, InstructLR has facilitated the creation of three multi-domain instruction benchmarks: ZarmaInstruct-50k, BambaraInstruct-50k, and FulfuldeInstruct-50k.
- Abstract(参考訳): 低リソース言語(LRL)のための効果的なテキスト生成とチャットインタフェースは、最先端の大規模言語モデル(LLM)をサポートする上で依然として課題である。
これは主に、アフリカ大陸や他の地域で話されている言語に広く見られる制限であるLRLの高品質な命令データセットのキュレーションが困難であるためである。
自動翻訳や合成データ生成といった現在のアプローチでは、流布や整合性に欠ける出力を頻繁に出力する。
本稿では,LRLのための高品質な命令データセットを生成するための新しいフレームワークであるInstructLRを紹介する。
提案手法は,LLM駆動によるテキスト生成と,検索強化世代(RAG)ベースのnショットプロンプトに基づく自動フィルタリング層と,ループ内検証層とを組み合わせる。
タスク定義におけるMMLUなどのベンチマークからインスピレーションを得たInstructLRは、Zarma Instruct-50k、Bambara Instruct-50k、Fulfulde Instruct-50kという3つのマルチドメイン命令ベンチマークの作成を促進した。
関連論文リスト
- "Don't Teach Minerva": Guiding LLMs Through Complex Syntax for Faithful Latin Translation with RAG [0.5076419064097734]
本稿では,オープンソースのLarge Language Modelsを上位レベルのプロプライエタリシステムに統計的に匹敵する性能レベルに引き上げる,再現可能なドラフトベース改良パイプラインを提案する。
標準的なドメイン内テストセット(Rosenthal, 2023)と12世紀のラテン文字(2025)からなる新しいドメイン外テストセット(OOD)である。
論文 参考訳(メタデータ) (2025-11-03T11:11:27Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [24.46771930751068]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。
自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。
エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T19:37:53Z) - MURI: High-Quality Instruction Tuning Datasets for Low-Resource Languages via Reverse Instructions [54.08017526771947]
MURI(Multilingual Reverse Instructions)は低リソース言語のための高品質な命令チューニングデータセットを生成する。
MURIは、低リソース言語における既存の人文テキストから命令出力ペアを生成する。
私たちのデータセットであるMURI-ITには200言語にまたがる200万以上の命令出力ペアが含まれています。
論文 参考訳(メタデータ) (2024-09-19T17:59:20Z) - Guiding Large Language Models to Generate Computer-Parsable Content [0.6798775532273751]
本研究では,特定の規則に忠実な構造化コンテンツを生成する際に,微調整なしでLLM(Large Language Models)をガイドする方法を提案する。
これにより、ターゲットデータ構造、型、命令を生成する際の安定性と一貫性が向上し、アプリケーション開発の複雑さが軽減される。
論文 参考訳(メタデータ) (2024-04-08T13:22:24Z) - A Simple but Effective Approach to Improve Structured Language Model
Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。
本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T20:42:02Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。