論文の概要: Xmodel-2 Technical Report
- arxiv url: http://arxiv.org/abs/2412.19638v1
- Date: Fri, 27 Dec 2024 13:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:52.031189
- Title: Xmodel-2 Technical Report
- Title(参考訳): Xmodel-2技術報告
- Authors: Wang Qun, Liu Yang, Lin Qingquan, Qu Zhijiu, Jiang Ling,
- Abstract要約: Xmodel-2は、推論タスク用に特別に設計された大きな言語モデルである。
トレーニング効率と安定性を最大化するために、MiniCPMのWSD学習率スケジューラを使用している。
Xmodel-2は、訓練コストを低く抑えながら、複雑な推論やエージェントベースのタスクにおいて最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.0069773933776665
- License:
- Abstract: Xmodel-2 is a 1.2-billion-parameter large language model designed specifically for reasoning tasks. Its architecture enables different model scales to share a unified set of hyperparameters, allowing for extensive experimentation on smaller models and seamless transfer of optimal configurations to larger models. To maximize training efficiency and stability, Xmodel-2 employs the WSD learning rate scheduler from MiniCPM. Pretrained on 1.5 trillion tokens from diverse sources, Xmodel-2 achieves state-of-the-art performance in complex reasoning and agent-based tasks, while maintaining low training costs. These results highlight the potential of efficient model design and training strategies in advancing reasoning capabilities. Model checkpoints and code are publicly available on GitHub at https://github.com/XiaoduoAILab/Xmodel-2
- Abstract(参考訳): Xmodel-2は、推論タスク用に特別に設計された1.2ビリオンパラメータの大言語モデルである。
そのアーキテクチャにより、異なるモデルスケールが統一されたハイパーパラメータのセットを共有することができ、より小さなモデルに対する広範な実験と、より大きなモデルへの最適な構成のシームレスな移行が可能になる。
トレーニング効率と安定性を最大化するために、Xmodel-2はMiniCPMからWSD学習率スケジューラを採用している。
Xmodel-2は様々なソースから1.5兆のトークンに事前訓練され、複雑な推論やエージェントベースのタスクにおいて最先端のパフォーマンスを実現し、低いトレーニングコストを維持している。
これらの結果は、推論能力の向上における効率的なモデル設計とトレーニング戦略の可能性を強調している。
モデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/Xmodel-2で公開されている。
関連論文リスト
- Enabling Small Models for Zero-Shot Selection and Reuse through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Improving the Generalization of Supervised Models [30.264601433216246]
本稿では,両世界の長所を生かした教師あり学習環境を提案する。
これらの3つの改善により、IN1Kトレーニングタスクと13のトランスファータスクとのトレードオフがより有利になることを示す。
論文 参考訳(メタデータ) (2022-06-30T15:43:51Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Ensembling Off-the-shelf Models for GAN Training [55.34705213104182]
事前学習されたコンピュータビジョンモデルは、識別器のアンサンブルで使用する場合、性能を著しく向上させることができる。
本研究では,事前学習したモデル埋め込みにおける実検体と偽検体間の線形分離性を検証し,効率的な選択機構を提案する。
本手法は, 限られたデータと大規模設定の両方において, GAN トレーニングを改善することができる。
論文 参考訳(メタデータ) (2021-12-16T18:59:50Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。