論文の概要: Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model
- arxiv url: http://arxiv.org/abs/2510.26622v1
- Date: Thu, 30 Oct 2025 15:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.893598
- Title: Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model
- Title(参考訳): Encoder-Decoder あるいは Decoder-Only? Encoder-Decoder 大言語モデルの再検討
- Authors: Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat,
- Abstract要約: 我々は、エンコーダ-デコーダ LLM (RedLLM) を再検討し、デコーダ専用 LLM (DecLLM) の最近のレシピで拡張する。
我々は、プレフィックス言語モデリング(LM)で事前訓練されたRedLLMと、因果的LMで事前訓練されたDecLLMとを、異なるモデルスケールで総合的に比較する。
プレトレーニングにRedPajama V1(1.6Tトークン)、インストラクションチューニングにFLANを用いることで、RedLLMは魅力的なスケーリング特性と驚くほど強力なパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 30.945523139748634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large language model (LLM) research has undergone an architectural shift from encoder-decoder modeling to nowadays the dominant decoder-only modeling. This rapid transition, however, comes without a rigorous comparative analysis especially \textit{from the scaling perspective}, raising concerns that the potential of encoder-decoder models may have been overlooked. To fill this gap, we revisit encoder-decoder LLM (RedLLM), enhancing it with recent recipes from decoder-only LLM (DecLLM). We conduct a comprehensive comparison between RedLLM, pretrained with prefix language modeling (LM), and DecLLM, pretrained with causal LM, at different model scales, ranging from $\sim$150M to $\sim$8B. Using RedPajama V1 (1.6T tokens) for pretraining and FLAN for instruction tuning, our experiments show that RedLLM produces compelling scaling properties and surprisingly strong performance. While DecLLM is overall more compute-optimal during pretraining, RedLLM demonstrates comparable scaling and context length extrapolation capabilities. After instruction tuning, RedLLM achieves comparable and even better results on various downstream tasks while enjoying substantially better inference efficiency. We hope our findings could inspire more efforts on re-examining RedLLM, unlocking its potential for developing powerful and efficient LLMs.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) 研究は,エンコーダ・デコーダ・モデリングから,現在では支配的なデコーダ・モデリングへとアーキテクチャ的に変化している。
しかし、この急激な移行は厳密な比較分析、特にスケーリングの観点からの textit{from the scaling perspective} を伴わないため、エンコーダ・デコーダモデルのポテンシャルが見落とされたのではないかという懸念が持ち上がった。
このギャップを埋めるために、エンコーダ-デコーダ LLM (RedLLM) を再検討し、デコーダ専用 LLM (DecLLM) の最近のレシピで拡張する。
我々は、プレフィックス言語モデリング(LM)で事前訓練されたRedLLMと、因果的LMで事前訓練されたDecLLMを、$\sim$150Mから$\sim$8Bまでの様々なモデルスケールで総合的に比較する。
プレトレーニングにRedPajama V1(1.6Tトークン)、インストラクションチューニングにFLANを用いることで、RedLLMは魅力的なスケーリング特性と驚くほど強力なパフォーマンスを実現していることを示す。
DecLLMは、事前トレーニング時の全体的な計算最適化であるが、RedLLMは、同等のスケーリングとコンテキスト長の外挿機能を示している。
インストラクションチューニングの後、RedLLMは様々な下流タスクにおいて同等でより良い結果を得ると同時に、推論効率を大幅に向上させる。
われわれの発見がRedLLMを再検討し、強力で効率的なLCMを開発する可能性を解き放つことを願っている。
関連論文リスト
- Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Should We Still Pretrain Encoders with Masked Language Modeling? [27.19054714197245]
最近の証拠は、コーサル言語モデリング(CLM)で事前訓練されたデコーダモデルをエンコーダとして効果的に再利用できることを示唆している。
2億1000万から10億のパラメータの合計38モデルをトレーニングし、15,000以上の微調整と評価を実行します。
高いレベルのCLMを用いたトレーニングでは,テキスト表現タスク間で性能が向上する一方で,CLM学習モデルの方がデータ効率が良く,微調整安定性が向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-01T17:45:48Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。
適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。
同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文 参考訳(メタデータ) (2025-04-08T17:13:41Z) - Are Decoder-Only Large Language Models the Silver Bullet for Code Search? [44.9422305001193]
コード検索はコードの再利用に不可欠であり、開発者は関連コードスニペットを効率的に見つけることができる。
強力なデコーダのみの大規模言語モデル(LLM)は多くのコードインテリジェンスタスクに革命をもたらした。
本稿では,11個のデコーダのみのLCMのシステム評価を行い,その性能をゼロショットと微調整で解析する。
論文 参考訳(メタデータ) (2024-10-29T17:05:25Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [15.723047976314751]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - Machine Learning-Aided Efficient Decoding of Reed-Muller Subcodes [59.55193427277134]
Reed-Muller (RM) 符号は、一般的なバイナリインプットメモリレス対称チャネルの容量を達成する。
RM符号は制限されたレートのみを許容する。
効率的なデコーダは、RM符号に対して有限長で利用可能である。
論文 参考訳(メタデータ) (2023-01-16T04:11:14Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。