論文の概要: cs60075_team2 at SemEval-2021 Task 1 : Lexical Complexity Prediction
using Transformer-based Language Models pre-trained on various text corpora
- arxiv url: http://arxiv.org/abs/2106.02340v1
- Date: Fri, 4 Jun 2021 08:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 15:22:35.874101
- Title: cs60075_team2 at SemEval-2021 Task 1 : Lexical Complexity Prediction
using Transformer-based Language Models pre-trained on various text corpora
- Title(参考訳): SemEval-2021 Task 1におけるcs60075_team2 : 様々なテキストコーパスを用いたトランスフォーマーベース言語モデルによる語彙複雑度予測
- Authors: Abhilash Nandy, Sayantan Adak, Tanurima Halder, Sai Mahesh Pokala
- Abstract要約: 本稿では,SemEval 2021 Task 1 - Lexical Complexity Predictionにおけるチームcs60075_team2の性能について述べる。
本論文の主な貢献は,いくつかのテキストコーパスで事前学習したトランスフォーマーに基づく言語モデルの構築である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes the performance of the team cs60075_team2 at SemEval
2021 Task 1 - Lexical Complexity Prediction. The main contribution of this
paper is to fine-tune transformer-based language models pre-trained on several
text corpora, some being general (E.g., Wikipedia, BooksCorpus), some being the
corpora from which the CompLex Dataset was extracted, and others being from
other specific domains such as Finance, Law, etc. We perform ablation studies
on selecting the transformer models and how their individual complexity scores
are aggregated to get the resulting complexity scores. Our method achieves a
best Pearson Correlation of $0.784$ in sub-task 1 (single word) and $0.836$ in
sub-task 2 (multiple word expressions).
- Abstract(参考訳): 本稿では,SemEval 2021 Task 1 - Lexical Complexity Predictionにおけるチームcs60075_team2の性能について述べる。
本論文の主な貢献は、いくつかのテキストコーパスで事前訓練されたトランスフォーマーベースの言語モデル(例えば、Wikipedia、ブックスコーパス)、CompLexデータセットが抽出されたコーパス(英語版)、ファイナンス、ローなどの他の特定のドメインからのモデルである。
変換器モデルの選択と個々の複雑性スコアの集約による複雑性スコアの獲得に関するアブレーション研究を行う。
提案手法は,サブタスク1(シングルワード)で0.784$,サブタスク2(複数ワード式)で0.836$という最適なピアソン相関を実現する。
関連論文リスト
- USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Transformer Based Implementation for Automatic Book Summarization [0.0]
文書要約 (Document Summarization) とは、ある文書の意味的かつ簡潔な要約を生成する手順である。
この作業は、抽象生成にTransformerベースのテクニックを使用する試みである。
論文 参考訳(メタデータ) (2023-01-17T18:18:51Z) - Conciseness: An Overlooked Language Task [11.940413163824887]
タスクを定義し、要約や単純化といった関連するタスクとは異なることを示す。
大規模なニューラルネットワークモデルによるゼロショットセットアップがよく機能しない場合、簡潔性は難しい課題であることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:47:11Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - Blessing of Class Diversity in Pre-training [54.335530406959435]
事前学習タスクのクラスが十分に多種多様である場合、事前学習は下流タスクのサンプル効率を大幅に向上させることができることを示す。
我々の証明は、合成関数クラスに対するベクトル形式ラデマッハ複雑性連鎖則と修正自己調和条件に依存している。
論文 参考訳(メタデータ) (2022-09-07T20:10:12Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction [4.86331990243181]
本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。
結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
論文 参考訳(メタデータ) (2021-05-18T18:55:04Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。