論文の概要: TiME: Tiny Monolingual Encoders for Efficient NLP Pipelines
- arxiv url: http://arxiv.org/abs/2512.14645v1
- Date: Tue, 16 Dec 2025 18:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.824117
- Title: TiME: Tiny Monolingual Encoders for Efficient NLP Pipelines
- Title(参考訳): TiME: 効率的なNLPパイプラインのための小さなモノリンガルエンコーダ
- Authors: David Schulmeister, Valentin Hartmann, Lars Klein, Robert West,
- Abstract要約: 多くのNLPパイプラインは、明確に定義された小さな機能セットを持つモデルのみを必要とする。
大規模なモデルは、これらの小さなモデルのタスクを実行することができるが、大量のデータを処理したり、リアルタイムのレスポンスを提供するのに十分な速度ではない。
このような効率クリティカルなアプリケーションのために、小さなモデルをトレーニングする方法を示す。
- 参考スコア(独自算出の注目度): 7.589774492422422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today, a lot of research on language models is focused on large, general-purpose models. However, many NLP pipelines only require models with a well-defined, small set of capabilities. While large models are capable of performing the tasks of those smaller models, they are simply not fast enough to process large amounts of data or offer real-time responses. Furthermore, they often use unnecessarily large amounts of energy, leading to sustainability concerns and problems when deploying them on battery-powered devices. In our work, we show how to train small models for such efficiency-critical applications. As opposed to many off-the-shelf NLP pipelines, our models use modern training techniques such as distillation, and offer support for low-resource languages. We call our models TiME (Tiny Monolingual Encoders) and comprehensively evaluate them on a range of common NLP tasks, observing an improved trade-off between benchmark performance on one hand, and throughput, latency and energy consumption on the other. Along the way, we show that distilling monolingual models from multilingual teachers is possible, and likewise distilling models with absolute positional embeddings from teachers with relative positional embeddings.
- Abstract(参考訳): 現在、言語モデルに関する多くの研究は、大規模で汎用的なモデルに焦点を当てている。
しかし、多くのNLPパイプラインは、明確に定義された小さな機能セットを持つモデルのみを必要とする。
大きなモデルはこれらの小さなモデルのタスクを実行することができるが、大量のデータを処理したり、リアルタイムのレスポンスを提供するのに十分ではない。
さらに、バッテリ駆動デバイスにデプロイする際の持続可能性に関する懸念や問題を引き起こすため、必要以上に大量のエネルギーを使用することが多い。
私たちの研究では、そのような効率クリティカルなアプリケーションのために、小さなモデルをトレーニングする方法を示します。
多くの既製のNLPパイプラインとは対照的に、我々のモデルは蒸留のような現代的な訓練技術を使用し、低リソース言語をサポートしています。
当社のモデルをTiME(Tiny Monolingual Encoders)と呼び、様々な共通NLPタスクでそれらを総合的に評価し、一方のベンチマークパフォーマンスと他方のスループット、レイテンシ、エネルギー消費のトレードオフの改善を観察します。
その過程で,多言語教師からの単言語モデルの蒸留が可能であること,また,相対的な位置埋め込みを持つ教師からの絶対的な位置埋め込みを伴うモデルの蒸留も可能であることを示す。
関連論文リスト
- Revealing the Power of Post-Training for Small Language Models via Knowledge Distillation [43.68215777330875]
我々は,小型モデルの精度を効果的に向上する,系統的な後学習パイプラインを導入する。
結果として得られた命令調整モデルにより、最先端のパフォーマンスが達成される。
この研究は、Ascendエッジデバイス上で高性能言語モデルを開発するための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-30T16:40:55Z) - InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Letz Translate: Low-Resource Machine Translation for Luxembourgish [4.860100893494234]
我々は、ドイツ語に基づく資源効率の高いモデルを構築し、多言語No Languageleft Behindモデルから知識を蒸留し、擬似翻訳を行う。
我々の効率的なモデルは、最先端のNLLBモデルと比較して30%以上高速で、4%以下でしか動作しないことがわかった。
論文 参考訳(メタデータ) (2023-03-02T15:26:46Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。