Fugu-MT 論文翻訳(概要): IMU-1: Sample-Efficient Pre-training of Small Language Models

論文の概要: IMU-1: Sample-Efficient Pre-training of Small Language Models

arxiv url: http://arxiv.org/abs/2602.02522v1
Date: Sun, 25 Jan 2026 21:24:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-04 18:37:14.897439
Title: IMU-1: Sample-Efficient Pre-training of Small Language Models
Title（参考訳）: IMU-1:小言語モデルのサンプル効率の良い事前学習
Authors: George Grigorev,
Abstract要約: IMU-1は、72Bトークンで訓練された430Mパラメータ言語モデルであり、56倍のデータで訓練されたモデルのベンチマーク性能にアプローチする。本稿では、最近のアーキテクチャ介入(QK-norm attention, per-head gating, value residuals, LayerNorm scalings)と最適化の進歩を組み合わせた検証済みのトレーニングレシピについて述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present IMU-1, a 430M-parameter language model trained on 72B tokens that approaches the benchmark performance of models trained on 56x more data. We describe a validated training recipe combining recent architectural interventions (QK-norm attention, per-head gating, value residuals, LayerNorm scaling) with optimization advances (NorMuon with cautious weight decay, muP parametrization) and a three-stage training schedule with post-hoc checkpoint EMA. We provide ablations for each component and release code, weights and data to enable reproduction: https://huggingface.co/thepowerfuldeez/imu1_base
Abstract（参考訳）: IMU-1は、72Bトークンでトレーニングされた430Mパラメータ言語モデルであり、56倍のデータでトレーニングされたモデルのベンチマーク性能にアプローチする。本稿では,最近の建築介入(QK-norm attention,per-head gating,value increases, LayerNorm scalings)と最適化(NorMuon with cautious weight decay, muP parametrization)と,ポストホックチェックポイントEMAを用いた3段階トレーニングスケジュールを組み合わせた評価済みトレーニングレシピについて述べる。私たちは、各コンポーネントとリリースコード、重み、データを再生可能にするために、Ablationを提供しています。

関連論文リスト

Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain [0.0]
本稿では,トルコの法律ドメインのための専門言語モデルを開発するためのフレームワークであるMecellemモデルを提案する。 Scratchから事前訓練されたエンコーダモデル:ModernBERTベースの双方向エンコーダをトルコ支配の112億トークンのコーパスで事前訓練し、(2)継続事前トレーニング(CPT)によるデコーダモデル:Qwen3-1.7BとQwen3-4Bをトルコの法域に適応させた。
論文参考訳（メタデータ） (2026-01-22T14:41:32Z)
CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文参考訳（メタデータ） (2025-09-30T09:28:47Z)
DreamPRM-1.5: Unlocking the Potential of Each Instance for Multimodal Process Reward Model Training [28.02129783121819]
DreamPRM-1.5は、インスタンスレベルの再重み付けフレームワークで、双方向の最適化を通じて、トレーニング例毎に適応的な重み付けを割り当てる。 MMMU検証セットで84.6の精度、R-Bench-Vで31.3の精度を実現し、リードバックボーンと組み合わせると、公開マルチモーダル推論リーダーボードで1位の結果が得られる。
論文参考訳（メタデータ） (2025-09-05T23:42:01Z)
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T14:30:11Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文参考訳（メタデータ） (2024-05-22T06:48:43Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)
LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文参考訳（メタデータ） (2021-02-22T13:58:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。