論文の概要: Laying Anchors: Semantically Priming Numerals in Language Modeling
- arxiv url: http://arxiv.org/abs/2404.01536v2
- Date: Wed, 7 Aug 2024 22:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 20:16:46.597716
- Title: Laying Anchors: Semantically Priming Numerals in Language Modeling
- Title(参考訳): Laying Anchors: 言語モデリングにおける数値のセマンティックプライミング
- Authors: Mandar Sharma, Rutuja Murlidhar Taware, Pravesh Koirala, Nikhil Muralidhar, Naren Ramakrishnan,
- Abstract要約: 我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
- 参考スコア(独自算出の注目度): 11.831883526217942
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Off-the-shelf pre-trained language models have become the de facto standard in NLP pipelines for a multitude of downstream tasks. However, the inability of these models to properly encode numerals limits their performance on tasks requiring numeric comprehension. We introduce strategies to semantically prime numerals in any corpus by generating anchors governed by the distribution of numerals in said corpus, thereby enabling mathematically grounded representations of these numeral tokens. We establish the superiority of our proposed techniques through evaluation on a range of numeracy tasks for both in-domain (seen) and out-domain (unseen) numerals. Further, we expand our empirical evaluations to numerals ranging from 1 to 10 billion, a significantly broader range compared to previous studies of the same nature, and we demonstrate significant improvements in the mathematical grounding of our learned embeddings.
- Abstract(参考訳): オフザシェルフで事前訓練された言語モデルは、さまざまな下流タスクのために、NLPパイプラインのデファクトスタンダードになっている。
しかし、これらのモデルが数値を適切にエンコードできないため、数値理解を必要とするタスクのパフォーマンスが制限される。
我々は,任意のコーパスにおいて,そのコーパス内の数値分布に支配されるアンカーを生成することによって,意味的素数に対する戦略を導入し,これらの数値トークンの数学的基底表現を可能にする。
提案手法の優位性は,内領域(目)と外領域(目)の両方の数値タスクの評価により確立する。
さらに,実験的な評価を10億から100億の数値にまで拡張し,従来の同じ性質の研究に比べてはるかに広い範囲で実施し,学習した埋め込みの数学的基礎化において大きな改善が示された。
関連論文リスト
- Interleaving Text and Number Embeddings to Solve Mathemathics Problems [0.0]
我々は、より表現力のある数値埋め込みを導入することで、近年のアプローチを構築している。
本手法は, 数値アーチファクトの除去, クリッピングを伴わずに広範囲のマグニチュードを扱う能力など, 重要な欠点に対処する。
論文 参考訳(メタデータ) (2024-10-25T07:21:57Z) - MathPile: A Billion-Token-Scale Pretraining Corpus for Math [45.163340937419214]
約950億のトークンからなる多様で高品質な数学中心コーパスであるMathPileを紹介します。
精巧なデータ収集と処理には、複雑な事前処理が含まれていました。
我々は、言語モデルの数学的推論能力を向上し、異なるバージョンをオープンソース化し、フィールドを前進させるためにスクリプトをプロセッシングすることを目指しています。
論文 参考訳(メタデータ) (2023-12-28T16:55:40Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。
我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。
FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文 参考訳(メタデータ) (2023-05-27T15:00:45Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文 参考訳(メタデータ) (2022-05-13T16:10:13Z) - Number Entity Recognition [65.80137628972312]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。
本研究では、最先端のNLPモデルの可能性を活用し、関連するタスクにおける性能向上能力の伝達を試みる。
提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクや,関節埋め込みを用いた質問応答など,NLPモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-05-07T05:22:43Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。