論文の概要: Jasper-Token-Compression-600M Technical Report
- arxiv url: http://arxiv.org/abs/2511.14405v2
- Date: Wed, 19 Nov 2025 06:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.139896
- Title: Jasper-Token-Compression-600M Technical Report
- Title(参考訳): Jasper-Token-Compression-600M 技術報告
- Authors: Dun Zhang, Ziyang Zeng, Yudong Zhou, Shuyang Lu,
- Abstract要約: 本稿では,オープンソースのJasper-Token-Compression-600Mモデルのトレーニング手法と評価結果について述べる。
我々のモデルの重要な革新は、1次元の畳み込みベースのトークン圧縮モジュールの導入である。
我々のモデルは従来の0.6Bモデルよりも高い効率で動作し、8Bモデルに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 1.349950008899546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This technical report presents the training methodology and evaluation results of the open-source Jasper-Token-Compression-600M model, released in November 2025. Building on previous distillation-based recipes from the English Stella and Jasper models, we successfully extend this approach to a bilingual (English and Chinese) domain, further enhancing model performance through the incorporation of contrastive learning. A key innovation of our model is the introduction of a one-dimensional convolution-based token compression module. We dynamically adjust the compression rate during training, enabling the model to learn more robust and efficient compressed text representations. By combining knowledge distillation with token compression techniques, we achieve significant improvements in both embedding quality and inference efficiency. Our model performs with higher efficiency than a traditional 0.6B model while achieving performance comparable to that of an 8B model. For more information on the model release, visit: https://huggingface.co/infgrad/Jasper-Token-Compression-600M.
- Abstract(参考訳): 本稿では,2025年11月に公開されたオープンソースのJasper-Token-Compression-600Mモデルのトレーニング方法論と評価結果を紹介する。
従来の蒸留法に基づくレシピを英語StellaとJasperモデルから構築し、この手法をバイリンガル(英語と中国語)ドメインに拡張し、コントラスト学習の導入によりモデル性能をさらに向上させることに成功した。
我々のモデルの重要な革新は、1次元の畳み込みベースのトークン圧縮モジュールの導入である。
トレーニング中の圧縮率を動的に調整し、モデルがより堅牢で効率的な圧縮テキスト表現を学習できるようにする。
知識蒸留とトークン圧縮技術を組み合わせることにより, 埋込み品質と推論効率の両方において, 大幅な改善が達成される。
我々のモデルは従来の0.6Bモデルよりも高い効率で動作し、8Bモデルに匹敵する性能を実現している。
モデルリリースの詳細については、https://huggingface.co/infgrad/Jasper-Token-Compression-600Mを参照してください。
関連論文リスト
- Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates [20.16951333751427]
本稿では,モデルプルーニングとパラメータ更新を一段階に統合した音声基礎モデル圧縮手法を提案する。
LibriSpeech-100hr corpus を用いた実験により,wav2vec2.0-base と HuBERT-large モデルのパラメータ数を 65% と 60% 削減できることが示唆された。
論文 参考訳(メタデータ) (2025-05-28T17:24:21Z) - Minitron-SSM: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [76.88243649182886]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-15T17:26:29Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。