論文の概要: Qwen2.5-1M Technical Report
- arxiv url: http://arxiv.org/abs/2501.15383v1
- Date: Sun, 26 Jan 2025 03:47:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:21.562040
- Title: Qwen2.5-1M Technical Report
- Title(参考訳): Qwen2.5-1M技術報告
- Authors: An Yang, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoyan Huang, Jiandong Jiang, Jianhong Tu, Jianwei Zhang, Jingren Zhou, Junyang Lin, Kai Dang, Kexin Yang, Le Yu, Mei Li, Minmin Sun, Qin Zhu, Rui Men, Tao He, Weijia Xu, Wenbiao Yin, Wenyuan Yu, Xiafei Qiu, Xingzhang Ren, Xinlong Yang, Yong Li, Zhiying Xu, Zipeng Zhang,
- Abstract要約: コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。
我々の推論フレームワークを活用することで、Qwen2.5-1Mモデルは驚くべき3倍から7倍のプリフィルスピードアップを達成する。
- 参考スコア(独自算出の注目度): 72.09755998661568
- License:
- Abstract: We introduce Qwen2.5-1M, a series of models that extend the context length to 1 million tokens. Compared to the previous 128K version, the Qwen2.5-1M series have significantly enhanced long-context capabilities through long-context pre-training and post-training. Key techniques such as long data synthesis, progressive pre-training, and multi-stage supervised fine-tuning are employed to effectively enhance long-context performance while reducing training costs. To promote the use of long-context models among a broader user base, we present and open-source our inference framework. This framework includes a length extrapolation method that can expand the model context lengths by at least four times, or even more, without additional training. To reduce inference costs, we implement a sparse attention method along with chunked prefill optimization for deployment scenarios and a sparsity refinement method to improve precision. Additionally, we detail our optimizations in the inference engine, including kernel optimization, pipeline parallelism, and scheduling optimization, which significantly enhance overall inference performance. By leveraging our inference framework, the Qwen2.5-1M models achieve a remarkable 3x to 7x prefill speedup in scenarios with 1 million tokens of context. This framework provides an efficient and powerful solution for developing applications that require long-context processing using open-source models. The Qwen2.5-1M series currently includes the open-source models Qwen2.5-7B-Instruct-1M and Qwen2.5-14B-Instruct-1M, as well as the API-accessed model Qwen2.5-Turbo. Evaluations show that Qwen2.5-1M models have been greatly improved in long-context tasks without compromising performance in short-context scenarios. Specifically, the Qwen2.5-14B-Instruct-1M model significantly outperforms GPT-4o-mini in long-context tasks and supports contexts eight times longer.
- Abstract(参考訳): コンテクスト長を100万トークンまで拡張する一連のモデルであるQwen2.5-1Mを紹介する。
以前の128Kバージョンと比較すると、Qwen2.5-1Mシリーズは、長文事前学習と後訓練を通じて、長いコンテキスト能力を大幅に強化した。
長期データ合成、プログレッシブ事前学習、多段階微調整といった重要な技術を用いて、トレーニングコストを削減しつつ、長期コンテキスト性能を効果的に向上させる。
より広範なユーザベースにおける長期コンテキストモデルの使用を促進するため、我々は推論フレームワークを提示し、オープンソース化する。
このフレームワークは、追加のトレーニングなしで、モデルコンテキストの長さを少なくとも4倍またはそれ以上に拡張できる長さ外挿法を含む。
推定コストを削減するため,デプロイシナリオに対するチャンク付きプリフィル最適化とともにスパースアテンション法を実装し,精度を向上させるためにスパースリファインメント法を実装した。
さらに、カーネル最適化、パイプライン並列化、スケジューリング最適化など、全体的な推論性能を大幅に向上させる推論エンジンの最適化について詳述する。
推論フレームワークを活用することで、Qwen2.5-1Mモデルは100万のコンテキストトークンを持つシナリオにおいて、驚くべき3倍から7倍のプリフィルスピードアップを達成する。
このフレームワークは、オープンソースモデルを使った長いコンテキスト処理を必要とするアプリケーションを開発するために、効率的で強力なソリューションを提供する。
Qwen2.5-1Mシリーズには、Qwen2.5-7B-Instruct-1MとQwen2.5-14B-Instruct-1M、およびAPIアクセスモデルQwen2.5-Turboが含まれる。
評価の結果、Qwen2.5-1Mモデルは、短文シナリオのパフォーマンスを損なうことなく、長いコンテキストタスクにおいて大幅に改善されていることが示された。
具体的には、Qwen2.5-14B-Instruct-1Mモデルは、長いコンテキストタスクにおいてGPT-4o-miniを著しく上回り、コンテキストを8倍長くサポートする。
関連論文リスト
- Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Correlation-Aware Select and Merge Attention for Efficient Fine-Tuning and Context Length Extension [21.729875191721984]
本稿では,効率的なスパースアテンションを実現するために,相関認識の選択とマージ機構を導入する。
また、位置エンコーディングを含む新しいデータ拡張手法を提案し、不明瞭な位置への一般化を促進する。
提案手法は,コンテキスト長4Mのパスキータスクに対して100%の精度を実現し,コンテクスト長1Mで安定したパープレキシティを維持する。
論文 参考訳(メタデータ) (2024-10-05T15:59:32Z) - 1.5-Pints Technical Report: Pretraining in Days, Not Months -- Your Language Model Thrives on Quality Data [0.0]
本稿では,9日間で言語モデル"1.5-Pints"を事前学習するための計算効率のよい手法を提案する。
MT-Bench(人間の判断をエミュレートするベンチマーク)に基づいて、1.5-PintsはAppleのOpenELMとMicrosoftのPhiを上回っている。
これは、自動化された人間によるレビューと手動によるレビューを組み合わせて、57億トークンのトレーニング済みデータセットを慎重にキュレートすることで達成される。
論文 参考訳(メタデータ) (2024-08-07T02:14:52Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。