論文の概要: Seq vs Seq: An Open Suite of Paired Encoders and Decoders
- arxiv url: http://arxiv.org/abs/2507.11412v1
- Date: Tue, 15 Jul 2025 15:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.173218
- Title: Seq vs Seq: An Open Suite of Paired Encoders and Decoders
- Title(参考訳): Seq vs Seq: ペアエンコーダとデコーダのオープンスイート
- Authors: Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van Durme,
- Abstract要約: 我々は,1700万のパラメータから10億までの,ペア付きエンコーダのみとデコーダのみのモデルであるSOTAオープンデータEttinスイートを紹介する。
エンコーダのみのモデルとデコーダのみのモデルの両方で同じレシピを使用して、それぞれのサイズで両方のカテゴリでSOTAレシピを生成する。
本稿では,デコーダモデルをエンコーダのタスク(およびその逆も)に適応させることが,逆の目的のみを使用する場合に比べて低いことを示す。
- 参考スコア(独自算出の注目度): 37.62535961965971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The large language model (LLM) community focuses almost exclusively on decoder-only language models, since they are easier to use for text generation. However, a large subset of the community still uses encoder-only models for tasks such as classification or retrieval. Previous work has attempted to compare these architectures, but is forced to make comparisons with models that have different numbers of parameters, training techniques, and datasets. We introduce the SOTA open-data Ettin suite of models: paired encoder-only and decoder-only models ranging from 17 million parameters to 1 billion, trained on up to 2 trillion tokens. Using the same recipe for both encoder-only and decoder-only models produces SOTA recipes in both categories for their respective sizes, beating ModernBERT as an encoder and Llama 3.2 and SmolLM2 as decoders. Like previous work, we find that encoder-only models excel at classification and retrieval tasks while decoders excel at generative tasks. However, we show that adapting a decoder model to encoder tasks (and vice versa) through continued training is subpar compared to using only the reverse objective (i.e. a 400M encoder outperforms a 1B decoder on MNLI, and vice versa for generative tasks). We open-source all artifacts of this study including training data, training order segmented by checkpoint, and 200+ checkpoints to allow future work to analyze or extend all aspects of training.
- Abstract(参考訳): 大規模言語モデル(LLM)コミュニティは、テキスト生成に使用しやすいため、ほとんどデコーダのみの言語モデルに重点を置いている。
しかし、コミュニティの大多数のサブセットは、分類や検索などのタスクにエンコーダのみのモデルを使っている。
これまでの作業では、これらのアーキテクチャの比較を試みたが、パラメータの数やトレーニングテクニック、データセットが異なるモデルと比較せざるを得なかった。
最大2兆個のトークンでトレーニングされた1700万のパラメータから10億までの、ペア化されたエンコーダのみとデコーダのみのモデルである。
エンコーダのみのモデルとデコーダのみのモデルの両方で同じレシピを使用して、それぞれのサイズでSOTAレシピを生成し、エンコーダとしてModernBERTを、デコーダとしてLlama 3.2とSmolLM2を圧倒した。
従来の研究と同様に、エンコーダのみのモデルでは分類や検索作業が優れ、デコーダは生成タスクが優れていた。
しかし, エンコーダモデルを用いてタスクをエンコーダ(およびその逆)に適応させることは, 逆の目的(MNLI上では400Mエンコーダが1Bデコーダを上回り, 生成タスクではその逆)よりも少ないことを示す。
トレーニングデータ、チェックポイントで区切られたトレーニング順序、200以上のチェックポイントを含む、この研究の全成果をオープンソースにして、将来のトレーニングのすべての側面を分析したり拡張したりできるようにしています。
関連論文リスト
- Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [32.338318300589776]
本研究では,コード検索のためのデコーダのみの大規模言語モデルについて,初めて体系的な検討を行った。
2つの微調整法、2つのデータセット、3つのモデルサイズを用いて、最先端デコーダのみの9つのモデルを評価する。
この結果,微調整のCodeGemmaはUniXcoderのようなエンコーダのみのモデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - You Only Cache Once: Decoder-Decoder Architectures for Language Models [132.4064488592704]
大規模言語モデルのためのデコーダ・デコーダアーキテクチャであるYOCOを導入する。
YOCOはキーと値のペアを一度だけキャッシュする。
全体的なモデルはデコーダのみのTransformerのように振る舞うが、YOCOは一度だけキャッシュする。
論文 参考訳(メタデータ) (2024-05-08T17:57:39Z) - Recipes for Sequential Pre-training of Multilingual Encoder and Seq2Seq
Models [16.49601740473416]
1つのモデルを他のモデルから初期化することで、トレーニング効率を向上させるためのレシピを探索する。
エンコーダを用いてSeq2seqのトレーニングを温めることで、Scratch Seq2seqモデルのタスク性能にマッチできることを示す。
論文 参考訳(メタデータ) (2023-06-14T21:41:52Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained
Experts [2.457872341625575]
ビデオ事前学習トランスについて紹介する。
4つのSOTAエンコーダモデルを使用して、動画をコンパクトな埋め込みのシーケンスに変換する。
自動回帰因果言語モデリングの損失を利用して学習し、YouTubeビデオで話される単語を予測する。
論文 参考訳(メタデータ) (2023-03-24T17:18:40Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。