論文の概要: Increasing The Performance of Cognitively Inspired Data-Efficient
Language Models via Implicit Structure Building
- arxiv url: http://arxiv.org/abs/2310.20589v1
- Date: Tue, 31 Oct 2023 16:26:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:17:33.911273
- Title: Increasing The Performance of Cognitively Inspired Data-Efficient
Language Models via Implicit Structure Building
- Title(参考訳): 暗黙的構造構築による認知的インスパイアデータ効率言語モデルの性能向上
- Authors: Omar Momen, David Arps, Laura Kallmeyer
- Abstract要約: 階層型文構造に関する教師なし予測をモデルアーキテクチャに組み込んだ言語モデルを訓練する。
StructFormerモデルは、限られた事前学習データに基づいて教師なしの構文誘導でうまく機能することが示されている。
BabyLMチャレンジが提供する39のタスクに対するモデルの評価は、階層的バイアスをアーキテクチャに組み込むモデルの改善を期待できることを示す。
- 参考スコア(独自算出の注目度): 6.445605125467575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe our submission to the BabyLM Challenge 2023 shared
task on data-efficient language model (LM) pretraining (Warstadt et al., 2023).
We train transformer-based masked language models that incorporate unsupervised
predictions about hierarchical sentence structure into the model architecture.
Concretely, we use the Structformer architecture (Shen et al., 2021) and
variants thereof. StructFormer models have been shown to perform well on
unsupervised syntactic induction based on limited pretraining data, and to
yield performance improvements over a vanilla transformer architecture (Shen et
al., 2021). Evaluation of our models on 39 tasks provided by the BabyLM
challenge shows promising improvements of models that integrate a hierarchical
bias into the architecture at some particular tasks, even though they fail to
consistently outperform the RoBERTa baseline model provided by the shared task
organizers on all tasks.
- Abstract(参考訳): 本稿では,BabyLM Challenge 2023におけるデータ効率言語モデル(LM)事前学習の課題について述べる(Warstadt et al., 2023)。
階層型文構造に関する教師なし予測をモデルアーキテクチャに組み込んだトランスフォーマーベースのマスク付き言語モデルを訓練する。
具体的には, structformer architecture (shen et al., 2021) とその変種を用いた。
構造体フォーマーモデルは、限られた事前学習データに基づく教師なし構文インダクションでうまく動作し、バニラトランスフォーマアーキテクチャ(shen et al., 2021)よりも性能が向上することが示されている。
BabyLMチャレンジによって提供される39のタスクに対する我々のモデルの評価は、すべてのタスクにおいて共有タスクオーガナイザが提供したRoBERTaベースラインモデルに一貫して勝るものの、特定のタスクにおいてアーキテクチャに階層的バイアスを組み込むモデルの有望な改善を示す。
関連論文リスト
- StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。
我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。
提案手法では,OPTモデルとLlamav2-7Bの行と列を20%~30%削減できる。
論文 参考訳(メタデータ) (2023-12-28T18:59:09Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Compositional Generalisation with Structured Reordering and Fertility
Layers [121.37328648951993]
Seq2seqモデルは構成一般化に苦しむことが示されている。
本稿では、2つの構造演算を構成するフレキシブルなエンドツーエンドの微分可能なニューラルモデルを提案する。
論文 参考訳(メタデータ) (2022-10-06T19:51:31Z) - DeepStruct: Pretraining of Language Models for Structure Prediction [64.84144849119554]
テキストから構造を生成するために,タスクに依存しないコーパスの集合上で言語モデルを事前訓練する。
我々の構造事前学習は、モデルが構造タスクについて持っている学習知識のゼロショット転送を可能にする。
10Bパラメータ言語モデルがほとんどのタスクに非自明に転送し、28のデータセットのうち21の最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2022-05-21T00:58:22Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。