論文の概要: PLaMo 2 Technical Report
- arxiv url: http://arxiv.org/abs/2509.04897v2
- Date: Thu, 25 Sep 2025 06:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:56.037664
- Title: PLaMo 2 Technical Report
- Title(参考訳): PLaMo2技術報告
- Authors: Preferred Networks, :, Kaizaburo Chubachi, Yasuhiro Fujita, Shinichi Hemmi, Yuta Hirokawa, Kentaro Imajo, Toshiki Kataoka, Goro Kobayashi, Kenichi Maehashi, Calvin Metzger, Hiroaki Mikami, Shogo Murai, Daisuke Nishino, Kento Nozawa, Toru Ogawa, Shintarou Okada, Daisuke Okanohara, Shunta Saito, Shotaro Sano, Shuji Suzuki, Kuniyuki Takahashi, Daisuke Tanaka, Avinash Ummadisingu, Hanqin Wang, Sixue Wang, Tianqi Xu,
- Abstract要約: 本研究では,サンバをベースとしたハイブリッドアーキテクチャを特徴とする,日本語を対象とする大規模言語モデルであるPLaMo 2を紹介する。
PLaMo 2モデルは、日本語のベンチマークで最先端の結果を達成し、命令追従、言語流速、日本語特有の知識において、同様の大きさのオープンモデルよりも優れている。
- 参考スコア(独自算出の注目度): 9.166942912957724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we introduce PLaMo 2, a series of Japanese-focused large language models featuring a hybrid Samba-based architecture that transitions to full attention via continual pre-training to support 32K token contexts. Training leverages extensive synthetic corpora to overcome data scarcity, while computational efficiency is achieved through weight reuse and structured pruning. This efficient pruning methodology produces an 8B model that achieves performance comparable to our previous 100B model. Post-training further refines the models using a pipeline of supervised fine-tuning (SFT) and direct preference optimization (DPO), enhanced by synthetic Japanese instruction data and model merging techniques. Optimized for inference using vLLM and quantization with minimal accuracy loss, the PLaMo 2 models achieve state-of-the-art results on Japanese benchmarks, outperforming similarly-sized open models in instruction-following, language fluency, and Japanese-specific knowledge.
- Abstract(参考訳): 本報告では,32Kトークンコンテキストをサポートするために,連続的な事前学習を通じて完全に注意を向けるハイブリッドSambaアーキテクチャを特徴とする,日本語中心の大規模言語モデルであるPLaMo 2を紹介する。
トレーニングはデータ不足を克服するために広範囲な合成コーパスを活用するが、計算効率は重量再利用と構造化プルーニングによって達成される。
この効率的なプルーニング手法は,従来の100Bモデルに匹敵する性能を実現する8Bモデルを生成する。
ポストトレーニングは、教師付き微調整(SFT)と直接選好最適化(DPO)のパイプラインを使用してモデルをさらに洗練し、合成日本語の命令データとモデルマージ技術によって強化される。
VLLMを用いた推論と最小精度損失の量子化に最適化されたPLaMo 2モデルは、日本語のベンチマークで最先端の結果を達成し、命令追従、言語流速、日本語固有の知識において、同様の大きさのオープンモデルよりも優れていた。
関連論文リスト
- KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。
本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。
主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文 参考訳(メタデータ) (2025-05-07T15:46:36Z) - Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs [96.68469559192846]
2つの異なる大きさのMoE大言語モデル(LLM)を提示する。
Ling-Liteは168億のパラメータと275億のアクティベートパラメータを持ち、Ling-Plusは2900億のパラメータと288億のアクティベートパラメータを持っている。
本稿では,(1)モデルアーキテクチャとトレーニングプロセスの最適化,(2)トレーニング異常処理の洗練,(3)モデル評価効率の向上のための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T04:43:39Z) - Kanana: Compute-efficient Bilingual Language Models [9.597618914676106]
カナナ(Kanana)は、韓国語のパフォーマンスと英語の競争性能を超越した二言語モデルである。
このレポートでは、計算効率が良いが競争力のあるモデルを実現するために、事前学習で使用されるテクニックについて詳述している。
本報告では, 埋め込み, 検索拡張生成, 関数呼び出しなど, 特定のシナリオへの言語モデル適応に有効なアプローチについて詳述する。
論文 参考訳(メタデータ) (2025-02-26T08:36:20Z) - PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency [4.122864669557465]
PLaMo-100Bは,日本語の習熟度を考慮した大規模言語モデルである。
モデルは2兆トークンを使用してゼロからトレーニングされた。
ベンチマーク評価の結果,PLaMo-100Bは特に日本語のタスクにおいて良好に機能することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T02:59:36Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。