論文の概要: ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
- arxiv url: http://arxiv.org/abs/2504.08716v1
- Date: Fri, 11 Apr 2025 17:29:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:19:12.068125
- Title: ModernBERT or DeBERTaV3? Examining Architecture and Data Influence on Transformer Encoder Models Performance
- Title(参考訳): ModernBERT or DeBERTaV3 : トランスフォーマーエンコーダモデルの性能に及ぼすアーキテクチャとデータの影響
- Authors: Wissam Antoun, Benoît Sagot, Djamé Seddah,
- Abstract要約: DeBERTaV3やModernBERTのようなトランスフォーマーエンコーダモデルは、効率と性能を改善することを目的としたアーキテクチャの進歩を導入している。
ModernBERTレポートの著者らは、いくつかのベンチマークでDeBERTaV3よりもパフォーマンスが向上したが、トレーニングデータの開示の欠如と比較の欠如により、これらのメリットがアーキテクチャの改善やトレーニングデータの相違によるものであるかどうかを判断することは困難である。
- 参考スコア(独自算出の注目度): 17.306542392779445
- License:
- Abstract: Pretrained transformer-encoder models like DeBERTaV3 and ModernBERT introduce architectural advancements aimed at improving efficiency and performance. Although the authors of ModernBERT report improved performance over DeBERTaV3 on several benchmarks, the lack of disclosed training data and the absence of comparisons using a shared dataset make it difficult to determine whether these gains are due to architectural improvements or differences in training data. In this work, we conduct a controlled study by pretraining ModernBERT on the same dataset as CamemBERTaV2, a DeBERTaV3 French model, isolating the effect of model design. Our results show that the previous model generation remains superior in sample efficiency and overall benchmark performance, with ModernBERT's primary advantage being faster training and inference speed. However, the new proposed model still provides meaningful architectural improvements compared to earlier models such as BERT and RoBERTa. Additionally, we observe that high-quality pre-training data accelerates convergence but does not significantly improve final performance, suggesting potential benchmark saturation. These findings show the importance of disentangling pretraining data from architectural innovations when evaluating transformer models.
- Abstract(参考訳): DeBERTaV3やModernBERTのような事前訓練されたトランスフォーマーエンコーダモデルでは、効率と性能の向上を目的としたアーキテクチャの進歩が導入されている。
ModernBERTレポートの著者らは、いくつかのベンチマークでDeBERTaV3よりもパフォーマンスが向上したが、公開トレーニングデータの欠如と共有データセットを使用した比較の欠如は、これらのメリットがアーキテクチャ上の改善やトレーニングデータの相違によるものであるかどうかを判断することを難しくしている。
本研究では,DeBERTaV3フランスのモデルであるCamemBERTaV2と同じデータセット上でModernBERTを事前学習することにより,モデル設計の効果を分離する制御研究を行う。
以上の結果から,従来のモデル生成はサンプル効率とベンチマーク性能に優れており,ModernBERTの最大の利点はトレーニングの高速化と推論の高速化である。
しかし、新しい提案されたモデルは、BERTやRoBERTaといった以前のモデルと比較しても有意義なアーキテクチャ改善を提供している。
さらに、高品質な事前学習データが収束を加速するが、最終的な性能は向上せず、潜在的なベンチマーク飽和が示唆される。
これらの結果は、トランスフォーマーモデルを評価する際に、アーキテクチャの革新から事前学習データを遠ざけることが重要であることを示している。
関連論文リスト
- Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - How Effective is Task-Agnostic Data Augmentation for Pretrained
Transformers? [7.727662147015879]
タスクに依存しないデータ拡張は、事前訓練されたモデルでもコンピュータビジョンにおいて広く有効であることが証明されている。
事前訓練されたトランスフォーマーに適用した場合、これらのテクニックが本当に有効か尋ねる。
非事前学習モデルに対する強い改善を報告した手法は、事前学習した変換器の性能を一貫して改善することができない。
論文 参考訳(メタデータ) (2020-10-05T03:55:15Z) - Pretrained Transformers Improve Out-of-Distribution Robustness [72.38747394482247]
7つのNLPデータセットのアウト・オブ・ディストリビューションの一般化を測定する。
本研究では,事前学習したトランスフォーマーの性能低下が著しく小さいことを示す。
どちらがロバスト性に影響を与えるかを調べ、より大きなモデルが必ずしもロバストであるとは限らないことを発見した。
論文 参考訳(メタデータ) (2020-04-13T17:58:56Z) - Data Augmentation using Pre-trained Transformer Models [2.105564340986074]
本研究では, 自動回帰モデル (GPT-2) や自動エンコーダモデル (BERT) , セック2seqモデル (BART) といった, 条件付きデータ拡張のためのトランスフォーマーベース事前学習モデルについて検討する。
クラスラベルをテキストシーケンスにプリコンパイルすることは、データ拡張のために事前訓練されたモデルを条件付けするための、シンプルで効果的な方法であることを示す。
論文 参考訳(メタデータ) (2020-03-04T18:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。