論文の概要: Persian-Phi: Efficient Cross-Lingual Adaptation of Compact LLMs via Curriculum Learning
- arxiv url: http://arxiv.org/abs/2512.07454v1
- Date: Mon, 08 Dec 2025 11:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.859744
- Title: Persian-Phi: Efficient Cross-Lingual Adaptation of Compact LLMs via Curriculum Learning
- Title(参考訳): ペルシャ・ピー:カリキュラム学習によるコンパクトLLMの効率的な言語間適応
- Authors: Amir Mohammad Akhlaghi, Amirhossein Shabani, Mostafa Abdolmaleki, Saeed Reza Kheradpisheh,
- Abstract要約: ペルシャ・ファイは3.8Bのパラメータモデルであり、堅牢な多言語機能には巨大なモデルサイズや多言語ベースラインが必要であるという仮定に挑戦する。
我々は、Microsoft Phi-3 Miniが、新しいリソース効率のカリキュラム学習パイプラインを通じて、ペルシア語に効果的に適応できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The democratization of AI is currently hindered by the immense computational costs required to train Large Language Models (LLMs) for low-resource languages. This paper presents Persian-Phi, a 3.8B parameter model that challenges the assumption that robust multilingual capabilities require massive model sizes or multilingual baselines. We demonstrate how Microsoft Phi-3 Mini -- originally a monolingual English model -- can be effectively adapted to Persian through a novel, resource-efficient curriculum learning pipeline. Our approach employs a unique "warm-up" stage using bilingual narratives (Tiny Stories) to align embeddings prior to heavy training, followed by continual pretraining and instruction tuning via Parameter-Efficient Fine-Tuning (PEFT). Despite its compact size, Persian-Phi achieves competitive results on Open Persian LLM Leaderboard in HuggingFace. Our findings provide a validated, scalable framework for extending the reach of state-of-the-art LLMs to underrepresented languages with minimal hardware resources. The Persian-Phi model is publicly available at https://huggingface.co/amirakhlaghiqqq/PersianPhi.
- Abstract(参考訳): AIの民主化は現在、低リソース言語のための大規模言語モデル(LLM)のトレーニングに必要な膨大な計算コストによって妨げられている。
本稿では、ロバストな多言語機能には膨大なモデルサイズや多言語ベースラインが必要であるという仮定に挑戦する3.8Bパラメータモデルであるペルシャ・ファイを提案する。
当初モノリンガルの英語モデルであったMicrosoft Phi-3 Miniは、新しくてリソース効率のよいカリキュラム学習パイプラインを通じて、ペルシア語に効果的に適応できることを示す。
本手法では,重度トレーニングに先立って,バイリンガルな物語(Tiny Stories)を用いた独自の「ウォームアップ(ウォームアップ)」ステージを導入し,パラメータ・エフェクト・ファインタニング(PEFT)による継続事前学習と指導訓練を行った。
コンパクトなサイズにもかかわらず、HuggingFace の Open Persian LLM Leaderboard で競争成績を挙げた。
我々の研究は、最先端のLLMを最小限のハードウェアリソースで表現できない言語に拡張するための、検証済みでスケーラブルなフレームワークを提供する。
ペルシアのPhiモデルはhttps://huggingface.co/amirakhlaghiqq/PersianPhiで公開されている。
関連論文リスト
- Winning with Less for Low Resource Languages: Advantage of Cross-Lingual English_Persian Argument Mining Model over LLM Augmentation [0.12744523252873352]
本稿では,低リソース言語における議論マイニングのための言語間アプローチを活用することを目的とする。
我々は、高リソース言語として英語、低リソース言語としてペルシア語でモデルを検証した。
論文 参考訳(メタデータ) (2025-11-25T21:36:39Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Extending LLMs to New Languages: A Case Study of Llama and Persian Adaptation [36.92567530333872]
我々は,大言語モデル(LLM)に新しい言語,すなわちペルシア語を追加することを研究する。
我々は単言語ペルシャ語のデータの事前学習を含む多段階的アプローチを採用する。
生成タスクと分類タスクにおいて,各段階でのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-12-17T23:18:06Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - PersianMind: A Cross-Lingual Persian-English Large Language Model [2.565964707090901]
オープンソースのバイリンガル大言語モデルであるPerphaMindを紹介する。
これはペルシア語のクローズドソース GPT-3.5-turbo に匹敵する性能を示している。
提案手法は,モデルの英語知識を保存し,タスク知識をある言語から別の言語に伝達する際の優れた伝達学習を利用する。
論文 参考訳(メタデータ) (2024-01-12T09:24:10Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。