論文の概要: LUNA: Language Understanding with Number Augmentations on Transformers
via Number Plugins and Pre-training
- arxiv url: http://arxiv.org/abs/2212.02691v1
- Date: Tue, 6 Dec 2022 01:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 16:33:22.844167
- Title: LUNA: Language Understanding with Number Augmentations on Transformers
via Number Plugins and Pre-training
- Title(参考訳): LUNA: 数値プラグインと事前学習によるトランスフォーマーの数値拡張による言語理解
- Authors: Hongwei Han, Jialiang Xu, Mengyu Zhou, Yijia Shao, Shi Han, Dongmei
Zhang
- Abstract要約: 本稿では,変換器に基づく言語モデルの数値推論と計算能力を向上させるLUNAフレームワークを提案する。
NumTokとNumBedの数値プラグインでは、LUNAは各数値全体をモデル入力として表現する。
3種類の下流タスク(TATQA, TabFact, CrediTrans)に対して, 大規模トランスモデル(RoBERTa, BERT, TabBERT)上でLUNAを評価する。
- 参考スコア(独自算出の注目度): 32.248232218239345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are widely used in NLP tasks. However, current approaches to
leveraging transformers to understand language expose one weak spot: Number
understanding. In some scenarios, numbers frequently occur, especially in
semi-structured data like tables. But current approaches to rich-number tasks
with transformer-based language models abandon or lose some of the numeracy
information - e.g., breaking numbers into sub-word tokens - which leads to many
number-related errors. In this paper, we propose the LUNA framework which
improves the numerical reasoning and calculation capabilities of
transformer-based language models. With the number plugin of NumTok and NumBed,
LUNA represents each number as a whole to model input. With number
pre-training, including regression loss and model distillation, LUNA bridges
the gap between number and vocabulary embeddings. To the best of our knowledge,
this is the first work that explicitly injects numeracy capability into
language models using Number Plugins. Besides evaluating toy models on toy
tasks, we evaluate LUNA on three large-scale transformer models (RoBERTa, BERT,
TabBERT) over three different downstream tasks (TATQA, TabFact, CrediTrans),
and observe the performances of language models are constantly improved by
LUNA. The augmented models also improve the official baseline of TAT-QA (EM:
50.15 -> 59.58) and achieve SOTA performance on CrediTrans (F1 = 86.17).
- Abstract(参考訳): トランスフォーマーはNLPタスクで広く使われている。
しかし、トランスフォーマーを利用して言語を理解する現在のアプローチは、ひとつ弱点を露呈している。
いくつかのシナリオでは、特にテーブルのような半構造化データでは、数値が頻繁に発生する。
しかし、トランスフォーマーベースの言語モデルを持つリッチナンバータスクへの現在のアプローチは、数値をサブワードトークンに分割するなど、数値情報の一部を放棄または失くしている。
本稿では,変換器を用いた言語モデルの数値推論と計算能力を向上させるLUNAフレームワークを提案する。
NumTokとNumBedの数値プラグインでは、LUNAは各数値全体をモデル入力として表現する。
回帰損失やモデル蒸留を含む事前学習では、LUNAは数と語彙の埋め込みの間のギャップを埋める。
私たちの知る限りでは、Number Pluginsを使用して言語モデルに数値機能を明示的に注入する最初の作業です。
玩具タスクにおける玩具モデルの評価に加えて,3種類の下流タスク(TATQA,TabFact,CrediTrans)に対して,大規模トランスフォーマーモデル(RoBERTa,BERT,TabBERT)上でLUNAを評価し,LUNAにより言語モデルの性能が常に改善されていることを観察する。
また、TAT-QA(EM: 50.15 -> 59.58)の公式ベースラインを改善し、CrediTrans(F1 = 86.17)でのSOTA性能を達成する。
関連論文リスト
- TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。
我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。
同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文 参考訳(メタデータ) (2023-12-06T09:37:27Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - On Robustness of Finetuned Transformer-based NLP Models [11.063628128069736]
CKAとSTIRの2つの指標を用いて、事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
この研究は、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T18:25:18Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Number Entity Recognition [65.80137628972312]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。
本研究では、最先端のNLPモデルの可能性を活用し、関連するタスクにおける性能向上能力の伝達を試みる。
提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクや,関節埋め込みを用いた質問応答など,NLPモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-05-07T05:22:43Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Investigating the Limitations of the Transformers with Simple Arithmetic
Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。
現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文 参考訳(メタデータ) (2021-02-25T17:22:53Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。