論文の概要: GPT or BERT: why not both?
- arxiv url: http://arxiv.org/abs/2410.24159v1
- Date: Thu, 31 Oct 2024 17:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:08.149122
- Title: GPT or BERT: why not both?
- Title(参考訳): GPT または BERT: なぜ両方がそうでないのか?
- Authors: Lucas Georges Gabriel Charpentier, David Samuel,
- Abstract要約: GPT-BERTは標準的な因果関係やマスキング言語モデルのように透過的に使用することができる。
モデルをオープンにリリースし、コーパスとコードをトレーニングします。
- 参考スコア(独自算出の注目度): 4.3354367808204515
- License:
- Abstract: We present a simple way to merge masked language modeling with causal language modeling. This hybrid training objective results in a model that combines the strengths of both modeling paradigms within a single transformer stack: GPT-BERT can be transparently used like any standard causal or masked language model. We test the pretraining process that enables this flexible behavior on the BabyLM Challenge 2024. The results show that the hybrid pretraining outperforms masked-only or causal-only models. We openly release the models, training corpora and code.
- Abstract(参考訳): マスク付き言語モデリングと因果言語モデリングを融合する簡単な方法を提案する。
このハイブリッドトレーニングの目的は、両方のモデリングパラダイムの長所を単一のトランスフォーマースタックに組み合わせたモデルをもたらす: GPT-BERTは、標準的な因果関係やマスキング言語モデルのように透過的に使用することができる。
本研究では,BabyLM Challenge 2024において,このフレキシブルな動作を可能にする事前学習プロセスをテストする。
その結果,ハイブリッドプレトレーニングはマスクのみまたは因果のみのモデルよりも優れていた。
モデルをオープンにリリースし、コーパスとコードをトレーニングします。
関連論文リスト
- Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
マスク拡散モデルの性能を向上させる効果的なトレーニングレシピを適用した。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - TEASEL: A Transformer-Based Speech-Prefixed Language Model [4.014524824655106]
マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としている。
lexiconの機能は、Transformerベースのモデルを通じて大きなコーパスで事前訓練されているため、他のモダリティよりも優れている。
高いパフォーマンスにもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティでトレーニングすることは、データ不足のため通常は不可能である。
論文 参考訳(メタデータ) (2021-09-12T14:08:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。