論文の概要: xGen-small Technical Report
- arxiv url: http://arxiv.org/abs/2505.06496v1
- Date: Sat, 10 May 2025 02:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.868258
- Title: xGen-small Technical Report
- Title(参考訳): xGen小特集号によせて
- Authors: Erik Nijkamp, Bo Pang, Egor Pakhomov, Akash Gokul, Jin Qu, Silvio Savarese, Yingbo Zhou, Caiming Xiong,
- Abstract要約: xGen-small は 4B と 9B のトランスフォーマーデコーダモデルのファミリーである。
当社の垂直統合パイプラインユニットは、ドメインバランスと周波数対応のデータキュレーション、品質アニールによるマルチステージ事前トレーニング、128kトークンまでの長さ拡張を実現しています。
xGen-smallは様々なタスク、特に数学やコーディングの領域で強力なパフォーマンスを提供し、長い文脈のベンチマークでは優れています。
- 参考スコア(独自算出の注目度): 84.6805365720304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce xGen-small, a family of 4B and 9B Transformer decoder models optimized for long-context applications. Our vertically integrated pipeline unites domain-balanced, frequency-aware data curation; multi-stage pre-training with quality annealing and length extension to 128k tokens; and targeted post-training via supervised fine-tuning, preference learning, and online reinforcement learning. xGen-small delivers strong performance across various tasks, especially in math and coding domains, while excelling at long context benchmarks.
- Abstract(参考訳): 長文アプリケーション向けに最適化された4Bおよび9BトランスフォーマーデコーダモデルであるxGen-smallを導入する。
我々の垂直統合パイプラインユニットは、ドメインバランスと周波数対応のデータキュレーション、品質のアニールと128kトークンへの長さ拡張によるマルチステージ事前トレーニング、教師付き微調整、嗜好学習、オンライン強化学習によるポストトレーニングである。
xGen-smallは様々なタスク、特に数学やコーディングの領域で強力なパフォーマンスを提供し、長い文脈のベンチマークでは優れている。
関連論文リスト
- From 128K to 4M: Efficient Training of Ultra-Long Context Large Language Models [54.44375226381814]
長いコンテキスト機能は、ドキュメントやビデオの理解、コンテキスト内学習、推論時間スケーリングなど、幅広いアプリケーションに不可欠である。
コンテクスト長を128Kから1M,2M,4Mに制限し,コンテクスト長を128Kから4Mに抑えることで,超長コンテキストLCMを構築するための効率的なトレーニング手法を提案する。
提案手法は,多種多様な長文ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-08T16:58:58Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy [111.1291107651131]
Long-VITAは、長いコンテキストの視覚言語理解タスクのための大規模なマルチモーダルモデルである。
4Kフレームまたは1Mトークン上で、画像、ビデオ、テキストのモダリティを同時に処理し、分析するのに適している。
Long-VITAは完全に再現可能で、トレーニングとテストのためにNPUとGPUプラットフォームの両方をサポートする。
論文 参考訳(メタデータ) (2025-02-07T18:59:56Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer [1.728027753702854]
長い文脈能力を持つ大規模言語モデル(LLM)は、自然言語処理や計算生物学における複雑なタスクに不可欠なものである。
長文LLMを効率的に学習するためのFPDT(Fully Pipelined Distributed Transformer)を提案する。
GPTモデルとLlamaモデルでは、同じハードウェア上でトレーニング可能なシーケンス長が16倍に向上する。
論文 参考訳(メタデータ) (2024-08-30T02:44:26Z) - IGOT: Information Gain Optimized Tokenizer on Domain Adaptive Pretraining [2.009700777745832]
事前訓練されたLarge Language Models (LLM) は、自然言語生成の様々な分野で強力な能力を示している。
生成AIを使用して下流タスクを処理する場合、一般的なアプローチは、継続的なトレーニングや微調整を通じて新しい知識を追加することである。
本稿では、下流タスクの特殊トークンセットを分析し、特殊トークンと情報ゲインを併用した$phi$を用いて新しいサブセットを構築する情報ゲイン最適化トークンライザ(IGOT)を提案する。
ドメイン適応型事前学習におけるカスタマイズトークン化器の多くの効果について検討し,本手法がより優れた性能を発揮することを検証した。
論文 参考訳(メタデータ) (2024-05-16T07:25:10Z) - In-Context Learning with Many Demonstration Examples [26.39178386828271]
本稿では,効率的なトランス機構に基づく長距離言語モデルEVALMを提案する。
EVALMはバッチ行あたり8kトークンでトレーニングされ、256kまでのコンテキストをテストすることができる。
マルチショット・インストラクション・チューニングにおいて,テキスト内学習はより多くの実演を伴って高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-02-09T20:53:12Z) - Multi-node Bert-pretraining: Cost-efficient Approach [6.5998084177955425]
大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-01T05:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。