論文の概要: Modalities, a PyTorch-native Framework For Large-scale LLM Training and Research
- arxiv url: http://arxiv.org/abs/2602.08387v1
- Date: Mon, 09 Feb 2026 08:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.129738
- Title: Modalities, a PyTorch-native Framework For Large-scale LLM Training and Research
- Title(参考訳): 大規模LLMトレーニングと研究のためのPyTorchネイティブフレームワークModalities
- Authors: Max Lübbering, Timm Ruland, Richard Rutmann, Felix Stollenwerk, David Fitzek, Michael Fromm, Alexander Weber, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Mehdi Ali,
- Abstract要約: Modalitiesは、大規模モデルトレーニングのためのエンドツーエンドのPyTorchネイティブフレームワークである。
データ駆動型LLM研究と2つの角度から大規模なモデルトレーニングを統合する。
- 参考スコア(独自算出の注目度): 33.56269788349648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Today's LLM (pre-) training and research workflows typically allocate a significant amount of compute to large-scale ablation studies. Despite the substantial compute costs of these ablations, existing open-source frameworks provide limited tooling for these experiments, often forcing researchers to write their own wrappers and scripts. We propose Modalities, an end-to-end PyTorch-native framework that integrates data-driven LLM research with large-scale model training from two angles. Firstly, by integrating state-of-the-art parallelization strategies, it enables both efficient pretraining and systematic ablations at trillion-token and billion-parameter scale. Secondly, Modalities adopts modular design with declarative, self-contained configuration, enabling reproducibility and extensibility levels that are difficult to achieve out-of-the-box with existing LLM training frameworks.
- Abstract(参考訳): 今日のLLM(pre-)トレーニングと研究のワークフローは通常、大規模なアブレーション研究にかなりの量の計算を割り当てる。
しかし既存のオープンソースフレームワークは、これらの実験のための限られたツールを提供しており、しばしば研究者は独自のラッパーやスクリプトを書かざるを得ない。
データ駆動型LLM研究と2つの角度から大規模モデルトレーニングを統合する,エンドツーエンドのPyTorchネイティブフレームワークであるModalitiesを提案する。
第一に、最先端の並列化戦略を統合することで、1兆トン規模と10億パラメータスケールでの効率的な事前訓練と体系的な改善が可能である。
第二に、Modalitiesは宣言的で自己完結した構成のモジュール設計を採用しており、既存のLLMトレーニングフレームワークで最初から達成することが難しい再現性と拡張性レベルを実現している。
関連論文リスト
- NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。