論文の概要: Adapting Decoder-Based Language Models for Diverse Encoder Downstream Tasks
- arxiv url: http://arxiv.org/abs/2503.02656v1
- Date: Tue, 04 Mar 2025 14:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:29.187159
- Title: Adapting Decoder-Based Language Models for Diverse Encoder Downstream Tasks
- Title(参考訳): 逆エンコーダダウンストリームタスクに対するデコーダに基づく言語モデルの適用
- Authors: Paul Suganthan, Fedor Moiseev, Le Yan, Junru Wu, Jianmo Ni, Jay Han, Imed Zitouni, Enrique Alfonseca, Xuanhui Wang, Zhe Dong,
- Abstract要約: Gemmaを導入し、強力なデコーダモデルをエンコーダアーキテクチャに適用する。
復号器から復号器への適応を最適化するために,様々なプーリング戦略を解析する。
GLUEベンチマークとMS MARCOベンチマークの確立したアプローチに対してGemmaをベンチマークする。
- 参考スコア(独自算出の注目度): 24.674661807982865
- License:
- Abstract: Decoder-based transformers, while revolutionizing language modeling and scaling to immense sizes, have not completely overtaken encoder-heavy architectures in natural language processing. Specifically, encoder-only models remain dominant in tasks like classification, regression, and ranking. This is primarily due to the inherent structure of decoder-based models, which limits their direct applicability to these tasks. In this paper, we introduce Gemma Encoder, adapting the powerful Gemma decoder model to an encoder architecture, thereby unlocking its potential for a wider range of non-generative applications. To optimize the adaptation from decoder to encoder, we systematically analyze various pooling strategies, attention mechanisms, and hyperparameters (e.g., dropout rate). Furthermore, we benchmark Gemma Encoder against established approaches on the GLUE benchmarks, and MS MARCO ranking benchmark, demonstrating its effectiveness and versatility.
- Abstract(参考訳): デコーダベースのトランスフォーマーは、言語モデリングと巨大なスケールに革命をもたらしたが、自然言語処理におけるエンコーダ重アーキテクチャを完全に上回ったわけではない。
具体的には、エンコーダのみのモデルは、分類、回帰、ランキングといったタスクで支配的のままである。
これは主にデコーダベースのモデルに固有の構造があり、これらのタスクへの直接適用性が制限されているためである。
本稿では,エンコーダアーキテクチャに強力なGemmaデコーダモデルを適用するGemma Encoderを提案する。
デコーダからエンコーダへの適応を最適化するために、様々なプール戦略、注意機構、ハイパーパラメータ(例えば、ドロップアウト率)を体系的に解析する。
さらに,GLUEベンチマークとMS MARCOベンチマークの確立したアプローチに対してGemma Encoderをベンチマークし,その有効性と汎用性を実証した。
関連論文リスト
- Return of the Encoder: Maximizing Parameter Efficiency for SLMs [4.246337121596753]
encoder-decoderアーキテクチャは、エッジデバイスのデコーダのみのモデルと比較して、47%のレイテンシと4.7倍のスループットを実現している。
本稿では,エンコーダ・デコーダモデルを用いた,大規模でスケーラブルなデコーダのみの教師の能力を活用した新しい知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T18:06:36Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - NASH: A Simple Unified Framework of Structured Pruning for Accelerating
Encoder-Decoder Language Models [29.468888611690346]
本稿では、エンコーダを狭め、エンコーダ-デコーダモデルのデコーダネットワークを短縮する、シンプルで効果的なフレームワークNASHを提案する。
その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。
論文 参考訳(メタデータ) (2023-10-16T04:27:36Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Adversarial Neural Networks for Error Correcting Codes [76.70040964453638]
機械学習(ML)モデルの性能と適用性を高めるための一般的なフレームワークを紹介する。
本稿では,MLデコーダと競合する識別器ネットワークを組み合わせることを提案する。
我々のフレームワークはゲーム理論であり、GAN(Generative Adversarial Network)によって動機付けられている。
論文 参考訳(メタデータ) (2021-12-21T19:14:44Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。