論文の概要: Konkani LLM: Multi-Script Instruction Tuning and Evaluation for a Low-Resource Indian Language
- arxiv url: http://arxiv.org/abs/2603.23529v1
- Date: Sat, 07 Mar 2026 03:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.018013
- Title: Konkani LLM: Multi-Script Instruction Tuning and Evaluation for a Low-Resource Indian Language
- Title(参考訳): Konkani LLM:低リソースインド言語のためのマルチスクリプトインストラクションチューニングと評価
- Authors: Reuben Chagas Fernandes, Gaurang S. Patkar,
- Abstract要約: 大規模言語モデル(LLM)は、コンカニのような低リソースの言語文脈で一貫して実行されている。
このパフォーマンスの欠陥は、デヴァナガリ、ロミ、カナダの正書法にまたがる高いスクリプト多様性によって、急激なトレーニングデータ不足が原因である。
Instruct-100kはGemini 3で生成された総合的な総合的な合成指導訓練データセットである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) consistently under perform in low-resource linguistic contexts such as Konkani. This performance deficit stems from acute training data scarcity compounded by high script diversity across Devanagari, Romi and Kannada orthographies. To address this gap, we introduce Konkani-Instruct-100k, a comprehensive synthetic instruction-tuning dataset generated through Gemini 3. We establish rigorous baseline benchmarks by evaluating leading open-weights architectures including Llama 3.1, Qwen2.5 and Gemma 3 alongside proprietary closed-source models. Our primary contribution involves the development of Konkani LLM, a series of fine-tuned models optimized for regional nuances. Furthermore, we are developing the Multi-Script Konkani Benchmark to facilitate cross-script linguistic evaluation. In machine translation, Konkani LLM delivers consistent gains over the corresponding base models and is competitive with and in several settings surpasses proprietary baselines
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンカニのような低リソースの言語文脈で一貫して実行されている。
このパフォーマンスの欠陥は、デヴァナガリ、ロミ、カナダの正書法にまたがる高いスクリプト多様性によって、急激なトレーニングデータ不足が原因である。
このギャップに対処するために,Gemini 3 で生成された総合的な合成指導訓練データセット Konkani-Instruct-100k を紹介する。
我々は,Llama 3.1,Qwen2.5,Gemma 3などの主要なオープンウェイトアーキテクチャを,プロプライエタリなクローズドソースモデルとともに評価することにより,厳密なベースラインベンチマークを確立する。
我々の主な貢献は、地域ニュアンスに最適化された一連の微調整モデルであるKonkani LLMの開発である。
さらに,クロススクリプト言語評価を容易にするために,マルチスクリプトコンカニベンチマークを開発している。
機械翻訳において、コンカニ LLM は対応するベースモデルに対して一貫したゲインを提供し、いくつかのセッティングにおいてプロプライエタリなベースラインを超えている。
関連論文リスト
- Benchmarking Hindi LLMs: A New Suite of Datasets and a Comparative Analysis [3.9680588541743718]
IFEval-Hi, MT-Bench-Hi, GSM8K-Hi, ChatRAG-Hi, BFCL-Hiの5つのHindi評価データセット群を紹介する。
これらは、intra-scratch Humanアノテーションとtranslate-and-verifyプロセスを組み合わせた方法論を用いて作成された。
論文 参考訳(メタデータ) (2025-08-27T12:35:31Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。
次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。
提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文 参考訳(メタデータ) (2023-11-17T06:55:32Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。