論文の概要: PLLuM: A Family of Polish Large Language Models
- arxiv url: http://arxiv.org/abs/2511.03823v1
- Date: Wed, 05 Nov 2025 19:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.198173
- Title: PLLuM: A Family of Polish Large Language Models
- Title(参考訳): PLLuM:ポーランドの大規模言語モデルのファミリー
- Authors: Jan Kocoń, Maciej Piasecki, Arkadiusz Janz, Teddy Ferdinan, Łukasz Radliński, Bartłomiej Koptyra, Marcin Oleksy, Stanisław Woźniak, Paweł Walkowiak, Konrad Wojtasik, Julia Moska, Tomasz Naskręt, Bartosz Walkowiak, Mateusz Gniewkowski, Kamil Szyc, Dawid Motyka, Dawid Banach, Jonatan Dalasiński, Ewa Rudnicka, Bartłomiej Alberski, Tomasz Walkowiak, Aleksander Szczęsny, Maciej Markiewicz, Tomasz Bernaś, Hubert Mazur, Kamil Żyta, Mateusz Tykierko, Grzegorz Chodak, Tomasz Kajdanowicz, Przemysław Kazienko, Agnieszka Karlińska, Karolina Seweryn, Anna Kołos, Maciej Chrabąszcz, Katarzyna Lorenc, Aleksandra Krasnodębska, Artur Wilczek, Katarzyna Dziewulska, Paula Betscher, Zofia Cieślińska, Katarzyna Kowol, Daria Mikoś, Maciej Trzciński, Dawid Krutul, Marek Kozłowski, Sławomir Dadas, Rafał Poświata, Michał Perełkiewicz, Małgorzata Grębowiec, Maciej Kazuła, Marcin Białas, Roman Roszko, Danuta Roszko, Jurgita Vaičenonienė, Andrius Utka, Paweł Levchuk, Paweł Kowalski, Irena Prawdzic-Jankowska, Maciej Ogrodniczuk, Monika Borys, Anna Bulińska, Wiktoria Gumienna, Witold Kieraś, Dorota Komosińska, Katarzyna Krasnowska-Kieraś, Łukasz Kobyliński, Martyna Lewandowska, Marek Łaziński, Mikołaj Łątkowski, Dawid Mastalerz, Beata Milewicz, Agnieszka Anna Mykowiecka, Angelika Peljak-Łapińska, Sandra Penno, Zuzanna Przybysz, Michał Rudolf, Piotr Rybak, Karolina Saputa, Aleksandra Tomaszewska, Aleksander Wawer, Marcin Woliński, Joanna Wołoszyn, Alina Wróblewska, Bartosz Żuk, Filip Żarnecki, Konrad Kaczyński, Anna Cichosz, Zuzanna Deckert, Monika Garnys, Izabela Grabarczyk, Wojciech Janowski, Sylwia Karasińska, Aleksandra Kujawiak, Piotr Misztela, Maria Szymańska, Karolina Walkusz, Igor Siek, Jakub Kwiatkowski, Piotr Pęzik,
- Abstract要約: ポーランド語に特化した基盤モデルの最大のオープンソースファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションであるPolish Large Language Modelを提示する。
本研究は,新たに140ビリオンのポーランド語テキストコーパスの構築を含む,事前学習のための開発プロセスについて述べる。
モデルアーキテクチャ、トレーニング手順、およびベースおよび命令調整された派生モデルのアライメント技術について詳述する。
- 参考スコア(独自算出の注目度): 91.61661675434216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) play a central role in modern artificial intelligence, yet their development has been primarily focused on English, resulting in limited support for other languages. We present PLLuM (Polish Large Language Model), the largest open-source family of foundation models tailored specifically for the Polish language. Developed by a consortium of major Polish research institutions, PLLuM addresses the need for high-quality, transparent, and culturally relevant language models beyond the English-centric commercial landscape. We describe the development process, including the construction of a new 140-billion-token Polish text corpus for pre-training, a 77k custom instructions dataset, and a 100k preference optimization dataset. A key component is a Responsible AI framework that incorporates strict data governance and a hybrid module for output correction and safety filtering. We detail the models' architecture, training procedures, and alignment techniques for both base and instruction-tuned variants, and demonstrate their utility in a downstream task within public administration. By releasing these models publicly, PLLuM aims to foster open research and strengthen sovereign AI technologies in Poland.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代の人工知能において中心的な役割を担っているが、その開発は主に英語に焦点を当てており、他の言語へのサポートは限られている。
PLLuM(ポーランド語大言語モデル)は,ポーランド語に特化して開発された基盤モデルの最大のオープンソースファウンデーションである。
ポーランドの主要研究機関のコンソーシアムによって開発されたPLLuMは、英語中心の商業景観を超えた高品質で透明で文化的に関連する言語モデルの必要性に対処する。
本稿では,事前学習のための新しい140ビリオンのポーランド語テキストコーパスの構築,77kのカスタム命令データセット,100kの優先最適化データセットなどの開発プロセスについて述べる。
重要なコンポーネントは、厳格なデータガバナンスを備えたResponsible AIフレームワークと、出力修正と安全性フィルタリングのためのハイブリッドモジュールである。
モデルアーキテクチャ、トレーニング手順、およびベースおよびインストラクションチューニングされた変種に対するアライメント手法について詳述し、公共行政における下流業務におけるそれらの実用性を実証する。
これらのモデルを公開することによって、PLLuMはポーランドにおけるオープンな研究を促進し、主権を持つAI技術を強化することを目指している。
関連論文リスト
- Towards Open Foundation Language Model and Corpus for Macedonian: A Low-Resource Language [4.276396344868335]
LLM(Large Language Models)の採用を促進するリソースを作成します。
これまでにマケドニア最大のコーパスを収集し、40GBのテキストデータと3.5Bの単語を収集した。
我々は、キュレートされたデータセットに基づいて、最先端の8B-パラメータモデルであるinter domestic-yakをトレーニングし、8つのベースラインモデルに対して評価する。
論文 参考訳(メタデータ) (2025-06-11T09:46:58Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - The BigScience ROOTS Corpus: A 1.6TB Composite Multilingual Dataset [36.98035382552118]
BigScienceワークショップは、大きな言語モデルを価値駆動の業務として研究し、訓練することを目的として設立された。
本稿では,BigScienceがROOTSコーパス(Responsible Open-science Open-Collaboration Text Sources)を組み立てるために行ったデータ作成とキュレーションの取り組みについて述べる。
論文 参考訳(メタデータ) (2023-03-07T14:25:44Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。