論文の概要: Training Optimal Large Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2510.03280v1
- Date: Sun, 28 Sep 2025 16:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.644406
- Title: Training Optimal Large Diffusion Language Models
- Title(参考訳): 大規模拡散言語モデルの学習
- Authors: Jinjie Ni, Qian Liu, Chao Du, Longxu Dou, Hang Yan, Zili Wang, Tianyu Pang, Michael Qizhe Shieh,
- Abstract要約: 拡散言語モデル(DLM)の最初の体系的スケーリング法則であるQuokkaを紹介する。
この結果が、DLMのトレーニングにおける短期的な実践的なガイダンスと、AIコミュニティ全体の長期的なインスピレーションをもたらすことを期待しています。
- 参考スコア(独自算出の注目度): 61.721441061210896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Quokka, the first systematic scaling law for diffusion language models (DLMs), encompassing both compute-constrained and data-constrained regimes, and studying the key modeling and optimization designs. Quokka is a good friend of Chinchilla and provides wider scopes. We hope the results would bring short-term practical guidance in DLMs training and long-term inspirations for the whole AI community.
- Abstract(参考訳): 拡散言語モデル(DLM)の最初の体系的スケーリング法であるQuokkaを導入し、計算制約とデータ制約の両方を包含し、主要なモデリングおよび最適化設計について検討する。
QuokkaはChinchillaの親友であり、幅広い範囲を提供している。
この結果が、DLMのトレーニングにおける短期的な実践的なガイダンスと、AIコミュニティ全体の長期的なインスピレーションをもたらすことを期待しています。
関連論文リスト
- Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - TESS 2: A Large-Scale Generalist Diffusion Language Model [24.91689676432666]
TESS 2は命令追従拡散言語モデルであり、命令追従拡散モデルより優れている。
適応学習とベースモデルの選択は,優れた指示追従拡散モデルの訓練に不可欠であることがわかった。
モデル出力の調整を基礎となるモデルのトレーニングを必要とせずに行うための,新しい,モジュール型の推論時ガイダンス手法である報奨ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:50:31Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。