論文の概要: Qomhra: A Bilingual Irish-English Large Language Model
- arxiv url: http://arxiv.org/abs/2510.17652v1
- Date: Mon, 20 Oct 2025 15:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.124345
- Title: Qomhra: A Bilingual Irish-English Large Language Model
- Title(参考訳): Qomhra: アイルランド英語のバイリンガル大言語モデル
- Authors: Joseph McInerney,
- Abstract要約: Qomhr'aは、低リソース制約下で開発されたバイリンガル・アイリッシュ・イングリッシュ・イングリッシュ・大規模言語モデル(LLM)である。
Qomhr'aは、翻訳、性別の理解、トピックの識別、世界の知識をテストするベンチマークで評価されており、アイルランド語では29%、英語では44%まで上昇している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper introduces Qomhr\'a, a bilingual Irish-English large language model (LLM), developed under low-resource constraints presenting a complete pipeline spanning bilingual continued pre-training, instruction tuning, and alignment from human preferences. Newly accessible Irish corpora and English text are mixed and curated to improve Irish performance while preserving English ability. 6 closed-weight LLMs are judged for their Irish text generation by a native speaker, a learner and other LLMs. Google's Gemini-2.5-Pro is ranked the highest and is subsequently used to synthesise instruction tuning and human preference datasets. Two datasets are contributed leveraging Gemini-2.5-Pro: a 30K Irish-English parallel instruction tuning dataset and a 1K human preference dataset, generating accepted and rejected responses that show near perfect alignment with a native Irish speaker. Qomhr\'a is comprehensively evaluated across benchmarks testing translation, gender understanding, topic identification and world knowledge with gains of up to 29% in Irish and 44% in English. Qomhr\'a also undergoes instruction tuning and demonstrates clear progress in instruction following, crucial for chatbot functionality.
- Abstract(参考訳): 本稿では,両言語間継続事前学習,命令チューニング,人間の嗜好からのアライメントにまたがる完全なパイプラインを提示する低リソース制約下で開発された,アイルランド・アイルランド・イングリッシュ大言語モデル(LLM)であるQomhr\'aを紹介する。
新しくアクセス可能なアイルランドのコーパスと英語のテキストは混在し、イングランドの能力を維持しながらアイルランドのパフォーマンスを改善するためにキュレーションされる。
6個の閉じたLLMは、ネイティブスピーカー、学習者、その他のLLMによってアイルランド語のテキスト生成について判断される。
GoogleのGemini-2.5-Proは最高位にランクされ、その後、命令チューニングと人間の好みデータセットの合成に使用される。
Gemini-2.5-Proを利用する2つのデータセット:30Kアイルランド英語の並列命令チューニングデータセットと1K人の好みデータセット。
Qomhr\'aは、翻訳、性別の理解、トピックの識別、世界の知識をテストするベンチマークで総合的に評価されており、アイルランド語では29%、英語では44%まで上昇している。
Qomhr\'aはインストラクションのチューニングも行っており、チャットボット機能に不可欠な、インストラクションの明確な進歩を示している。
関連論文リスト
- NeoBabel: A Multilingual Open Tower for Visual Generation [32.79724699684266]
我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。
英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。
それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T16:19:45Z) - MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model Pretraining [27.952041404675846]
高品質な英語データ品質の信号を17のターゲット言語に対して単一のレーダに転送するフレームワークであるMuRatingを紹介した。
MuRatingは、ペア比較を通じて複数の英語の「レーダ」を集約し、統一された文書品質スコアを学習する。
その後、翻訳を通じてこれらの判断を投影し、モノリンガル、クロスランガル、およびパラレルテキストペア上で多言語評価器を訓練する。
論文 参考訳(メタデータ) (2025-07-02T15:11:12Z) - IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation [3.9530780161144667]
本稿では、英語とアイルランド語を併用したIRLBenchについて紹介する。
私たちのベンチマークは、2024年のアイリッシュリービング認定試験から開発された12の代表的な被験者で構成されています。
モデルが有効なアイルランド語の応答を80%以下に抑え、正しい答えが55.8%であるのに対し、最高のパフォーマンスのモデルでは76.2%が英語である。
論文 参考訳(メタデータ) (2025-05-16T00:02:05Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - UCCIX: Irish-eXcellence Large Language Model [3.9530780161144667]
この研究は、UCCIXというオープンソースのアイルランドのLLMの開発における先駆的な取り組みを提示している。
極低リソース言語に特化して適応したLLMの事前学習を継続する新しいフレームワークを提案する。
Llama 2-13Bをベースとした我々のモデルは、最大12%のパフォーマンス改善でアイルランド語のタスクにおいて、はるかに大きなモデルより優れています。
論文 参考訳(メタデータ) (2024-05-13T13:19:27Z) - Data-to-text Generation for Severely Under-Resourced Languages with
GPT-3.5: A Bit of Help Needed from Google Translate [5.632410663467911]
言語学習システムは、トレーニングデータに過小評価されている言語に関わるタスクにどのように対処するかを検討する。
これには、アイルランド語、マルタ語、ウェールズ語、ブルトン語のデータ・テキスト生成が含まれる。
ごくわずかのプロンプトは、リソース不足の言語への直接生成に効果があるが、英語でピボットすると違いは消えてしまう。
我々は、最先端のLLMを用いて、アウト・オブ・ザ・ボックスで、アン・リソース言語での優れた性能を達成できると結論付けた。
論文 参考訳(メタデータ) (2023-08-19T09:19:34Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。