論文の概要: It's All in The [MASK]: Simple Instruction-Tuning Enables BERT-like Masked Language Models As Generative Classifiers
- arxiv url: http://arxiv.org/abs/2502.03793v2
- Date: Mon, 10 Feb 2025 14:08:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:40.718522
- Title: It's All in The [MASK]: Simple Instruction-Tuning Enables BERT-like Masked Language Models As Generative Classifiers
- Title(参考訳): 単純なインストラクションチューニングにより、BERTのようなマズード言語モデルをジェネレーティブな分類子として利用できるようになる。
- Authors: Benjamin Clavié, Nathan Cooper, Benjamin Warner,
- Abstract要約: 生成分類にマスク付き言語モデリングヘッドを利用するエンコーダモデルであるModernBERT-Large-Instructを導入する。
当社のアプローチでは、重度の事前処理を必要としない、意図的な単純なトレーニングループと推論メカニズムを採用しています。
ModernBERT-Large-Instructは、分類と知識に基づくタスクの両方において強力なゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 2.3923290791822267
- License:
- Abstract: While encoder-only models such as BERT and ModernBERT are ubiquitous in real-world NLP applications, their conventional reliance on task-specific classification heads can limit their applicability compared to decoder-based large language models (LLMs). In this work, we introduce ModernBERT-Large-Instruct, a 0.4B-parameter encoder model that leverages its masked language modelling (MLM) head for generative classification. Our approach employs an intentionally simple training loop and inference mechanism that requires no heavy pre-processing, heavily engineered prompting, or architectural modifications. ModernBERT-Large-Instruct exhibits strong zero-shot performance on both classification and knowledge-based tasks, outperforming similarly sized LLMs on MMLU and achieving 93% of Llama3-1B's MMLU performance with 60% less parameters. We also demonstrate that, when fine-tuned, the generative approach using the MLM head matches or even surpasses traditional classification-head methods across diverse NLU tasks.This capability emerges specifically in models trained on contemporary, diverse data mixes, with models trained on lower volume, less-diverse data yielding considerably weaker performance. Although preliminary, these results demonstrate the potential of using the original generative masked language modelling head over traditional task-specific heads for downstream tasks. Our work suggests that further exploration into this area is warranted, highlighting many avenues for future improvements.
- Abstract(参考訳): BERTやModernBERTのようなエンコーダのみのモデルは、実世界のNLPアプリケーションではユビキタスであるが、タスク固有の分類ヘッドに依存しているため、デコーダベースの大規模言語モデル(LLM)に比べて適用性が制限される。
そこで本研究では,そのマスキング言語モデリング(MLM)ヘッドを利用した0.4BパラメータエンコーダモデルであるModernBERT-Large-Instructを紹介した。
当社のアプローチでは、重度の事前処理、高度なエンジニアリングプロンプト、アーキテクチャ修正を必要としない、意図的な単純なトレーニングループと推論メカニズムを採用しています。
ModernBERT-Large-Instructは、分類タスクと知識ベースタスクの両方でゼロショット性能を示し、MMLU上でも同様の大きさのLLMより優れ、パラメータが60%少ないLlama3-1BのMMLU性能の93%を達成している。
また, MLMヘッドを用いた生成手法が微調整された場合, 様々なNLUタスクにまたがる従来の分類ヘッド手法を超越したり, あるいは超越したりすることが実証された。
予備的ではあるが、これらの結果は、下流タスクにおいて従来のタスク特化ヘッドよりも、元の生成マスク言語モデリングヘッドを使用することの可能性を示している。
我々の研究は、この地域のさらなる探検が保証され、将来の改善への多くの道のりが浮かび上がっていることを示唆している。
関連論文リスト
- Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。
我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文 参考訳(メタデータ) (2025-01-02T03:17:51Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Large Language Models aren't all that you need [0.0]
本稿では,SemEval 2023 Task 2: MultiCoNER IIを解くために構築されたアーキテクチャとシステムについて述べる。
a)従来のランダムフィールドモデルと(b)カスタマイズされた頭で微調整されたLarge Language Model(LLM)の2つのアプローチを評価し、その2つのアプローチを比較した。
論文 参考訳(メタデータ) (2024-01-01T08:32:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。