Fugu-MT 論文翻訳(概要): Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

論文の概要: Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

arxiv url: http://arxiv.org/abs/2412.13663v1
Date: Wed, 18 Dec 2024 09:39:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.140666
Title: Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference
Title（参考訳）: より賢く、より良く、より速く、より長く:高速で、メモリ効率よく、長いコンテキストの微調整と推論のためのモダンな双方向エンコーダ
Authors: Benjamin Warner, Antoine Chaffin, Benjamin Clavié, Orion Weller, Oskar Hallström, Said Taghadouini, Alexis Gallagher, Raja Biswas, Faisal Ladhak, Tom Aarsen, Nathan Cooper, Griffin Adams, Jeremy Howard, Iacopo Poli,
Abstract要約: ModernBERTを導入し、エンコーダのみのモデルにモダンなモデル最適化をもたらす。 ModernBERTモデルは、大規模な評価のプールに最先端の結果を示す。 ModernBERTは、最も高速かつメモリ効率の良いエンコーダでもある。
参考スコア（独自算出の注目度）: 15.921261060193416
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Encoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger decoder-only models. Despite being the workhorse of numerous production pipelines, there have been limited Pareto improvements to BERT since its release. In this paper, we introduce ModernBERT, bringing modern model optimizations to encoder-only models and representing a major Pareto improvement over older encoders. Trained on 2 trillion tokens with a native 8192 sequence length, ModernBERT models exhibit state-of-the-art results on a large pool of evaluations encompassing diverse classification tasks and both single and multi-vector retrieval on different domains (including code). In addition to strong downstream performance, ModernBERT is also the most speed and memory efficient encoder and is designed for inference on common GPUs.
Abstract（参考訳）: BERTのようなエンコーダのみのトランスフォーマーモデルは、より大きなデコーダのみのモデルに対して、検索および分類タスクのための優れたパフォーマンス上のトレードオフを提供する。多くのプロダクションパイプラインの作業員であるにもかかわらず、BERTのリリース以来、Paretoの改善は限られている。本稿では,ModernBERTを導入し,エンコーダのみのモデルにモデル最適化を導入し,古いエンコーダに比べてパレートが大幅に向上したことを示す。ネイティブな8192シーケンス長を持つ2兆個のトークンに基づいてトレーニングされたModernBERTモデルは、さまざまな分類タスクを含む大規模な評価と、異なるドメイン(コードを含む)でのシングルおよびマルチベクタ検索の両方を含む、最先端の結果を示す。強力なダウンストリーム性能に加えて、ModernBERTは最も高速でメモリ効率のよいエンコーダであり、一般的なGPUでの推論用に設計されている。

関連論文リスト

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
ModernGBERT: German-only 1B Encoder Model Trained from Scratch [3.193989599110687]
ゼロから訓練されたドイツのエンコーダモデルの完全透明なファミリであるModernGBERT (134M, 1B) を紹介する。 LL"aMmlein2Vec (120M, 1B, 7B) も提案する。
論文参考訳（メタデータ） (2025-05-19T14:07:20Z)
Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文参考訳（メタデータ） (2025-04-08T17:13:41Z)
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文参考訳（メタデータ） (2024-03-19T19:27:23Z)
BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining [0.5919433278490629]
BERT (Bidirectional Representations from Transformers) は、自然言語処理の分野に革命をもたらした。 DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。マスク付き言語モデリングデコーダの設計と研究は不十分である。
論文参考訳（メタデータ） (2024-01-29T03:25:11Z)
MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。 C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文参考訳（メタデータ） (2023-12-29T06:05:19Z)
Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。 CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文参考訳（メタデータ） (2023-12-27T21:04:26Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。 NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。 NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文参考訳（メタデータ） (2023-01-11T23:45:50Z)
An Exploration of Hierarchical Attention Transformers for Efficient Long Document Classification [37.069127262896764]
ロングフォーマーやビッグバードのようなトランスフォーマーベースのモデルは、長いドキュメントを扱うための一般的なアプローチである。セグメントワイドおよびクロスセグメントエンコーダを用いた完全事前学習型HATモデルの開発とリリースを行う。最高のHATモデルは、GPUメモリを10～20%削減し、文書処理を40～45%高速化しながら、同等の大きさのLongformerモデルより優れています。
論文参考訳（メタデータ） (2022-10-11T15:17:56Z)
ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文参考訳（メタデータ） (2022-04-25T06:26:29Z)
BinaryBERT: Pushing the Limit of BERT Quantization [74.65543496761553]
本稿では、BERT量子化を重み二項化の限界まで押し上げるBinaryBERTを提案する。複雑で不規則な損失環境のため,バイナリBERTは3次学習よりも直接訓練が難しいことが判明した。実験結果から、BinaryBERT は完全精度 BERT ベースと比較して無視できる性能低下を示した。
論文参考訳（メタデータ） (2020-12-31T16:34:54Z)
HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文参考訳（メタデータ） (2020-12-21T18:58:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。