論文の概要: Phi-4 Technical Report
- arxiv url: http://arxiv.org/abs/2412.08905v1
- Date: Thu, 12 Dec 2024 03:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 15:57:56.206702
- Title: Phi-4 Technical Report
- Title(参考訳): Phi-4技術報告
- Authors: Marah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang,
- Abstract要約: 本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。
多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
- 参考スコア(独自算出の注目度): 72.06109095293243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.
- Abstract(参考訳): 本研究では,データ品質に重点を置いた14ビリオンパラメータ言語モデル phi-4 を提案する。
多くの言語モデルとは異なり、事前学習は主にWebコンテンツやコードなどの有機データソースに基づいており、phi-4はトレーニングプロセス全体を通して戦略的に合成データを組み込んでいる。
Phiファミリーの以前のモデルでは、主に教師モデル(特にGPT-4)の能力を蒸留していたが、phi-4はSTEMに焦点を当てたQA能力の教師モデルを大幅に上回っており、我々のデータ生成および後学習技術が蒸留を超える証拠となっている。
phi-3アーキテクチャの最小限の変更にもかかわらず、phi-4はデータの改善、トレーニングカリキュラム、ポストトレーニングスキームの革新により、そのサイズ(特に推論中心のベンチマーク)に対して高いパフォーマンスを実現している。
関連論文リスト
- Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - Tulu 3: Pushing Frontiers in Open Language Model Post-Training [94.14908801708049]
トゥル3(Tulu 3)は、最先端の訓練後モデルである。
Tulu 3はLlama 3.1ベースモデルをベースにしており、Llama 3.1、Qwen 2.5、Mistral、さらにGPT-4o-mini、Claude 3.5-Haikuといったクローズドモデルにも勝っている。
論文 参考訳(メタデータ) (2024-11-22T18:44:04Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - Using GPT-4 to Augment Unbalanced Data for Automatic Scoring [0.5586073503694489]
生成型大規模言語モデルである GPT-4 を利用した新しいテキストデータ拡張フレームワークを提案する。
我々は GPT-4 で応答を生成するプロンプトを作成した。
拡張データセットとオリジナルデータセットに基づいて自動スコアリングのためにDistillBERTを微調整した。
論文 参考訳(メタデータ) (2023-10-25T01:07:50Z) - Automatic Pair Construction for Contrastive Post-training [57.57149781848383]
本稿では,大規模言語モデル(LLM)のためのコントラストデータの自動構築手法を提案する。
SLiC と DPO の対比手法を SFT ベースラインと比較した結果,DPO は SFT 飽和後の段階的改善を実現していることがわかった。
また、コントラスト的なポストトレーニングのためのデータカリキュラムの学習手法についても検討し、"より簡単な"ペアから学び、"よりハード"なものに移行することから始めます。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。