論文の概要: Less is More: Simplifying Feature Extractors Prevents Overfitting for
Neural Discourse Parsing Models
- arxiv url: http://arxiv.org/abs/2210.09537v1
- Date: Tue, 18 Oct 2022 02:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:31:14.036241
- Title: Less is More: Simplifying Feature Extractors Prevents Overfitting for
Neural Discourse Parsing Models
- Title(参考訳): 機能エクストラクタの単純化によるニューラル談話解析モデルのオーバーフィット防止
- Authors: Ming Li, Sijing Yu, Ruihong Huang
- Abstract要約: 我々は,付加的な特徴抽出器を除去し,事前学習されたニューラルネットワークモデルを利用する自己認識機構のみを活用することを提案する。
3つの共通談話構文解析実験により,近年の事前学習言語モデルにより,単純化された特徴抽出器により,より優れた一般化性が得られることが示された。
- 参考スコア(独自算出の注目度): 26.830660287943207
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex feature extractors are widely employed for text representation
building. However, these complex feature extractors can lead to severe
overfitting problems especially when the training datasets are small, which is
especially the case for several discourse parsing tasks. Thus, we propose to
remove additional feature extractors and only utilize self-attention mechanism
to exploit pretrained neural language models in order to mitigate the
overfitting problem. Experiments on three common discourse parsing tasks (News
Discourse Profiling, Rhetorical Structure Theory based Discourse Parsing and
Penn Discourse Treebank based Discourse Parsing) show that powered by recent
pretrained language models, our simplied feature extractors obtain better
generalizabilities and meanwhile achieve comparable or even better system
performance. The simplified feature extractors have fewer learnable parameters
and less processing time. Codes will be released and this simple yet effective
model can serve as a better baseline for future research.
- Abstract(参考訳): 複雑な特徴抽出器はテキスト表現構築に広く用いられている。
しかしながら、これらの複雑な特徴抽出器は、特にトレーニングデータセットが小さい場合には、深刻な過剰フィッティング問題を引き起こす可能性がある。
そこで本研究では,追加特徴抽出器を除去し,事前学習された言語モデルを活用した自己照査機構のみを活用し,過剰充足問題を解決することを提案する。
3つの共通談話解析タスク(News Discourse Profiling, Rhetorical Structure Theory based Discourse Parsing, Penn Discourse Treebank based Discourse Parsing)の実験は、近年の事前学習言語モデルを用いて、単純化された特徴抽出器がより一般化し、システム性能が同等あるいはさらに向上したことを示す。
単純化された特徴抽出器は、学習可能なパラメータが少なく、処理時間も少ない。
コードはリリースされ、このシンプルで効果的なモデルは将来の研究のベースラインとして役立ちます。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Discontinuous Constituent Parsing with Pointer Networks [0.34376560669160383]
不連続な構成木は、ドイツ語のような言語の文法的な現象を表現するのに不可欠である。
係り受け解析の最近の進歩は、ポインタネットワークが文中の単語間の構文関係を効率的に解析することに優れていることを示している。
本稿では,最も正確な不連続な構成表現を生成するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-05T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。