論文の概要: Estimating Numbers without Regression
- arxiv url: http://arxiv.org/abs/2310.06204v1
- Date: Mon, 9 Oct 2023 23:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 21:16:04.943987
- Title: Estimating Numbers without Regression
- Title(参考訳): 回帰のない数の推定
- Authors: Avijit Thawani and Jay Pujara and Ashwin Kalyan
- Abstract要約: 近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
- 参考スコア(独自算出の注目度): 30.79061214333164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent successes in language models, their ability to represent
numbers is insufficient. Humans conceptualize numbers based on their
magnitudes, effectively projecting them on a number line; whereas subword
tokenization fails to explicitly capture magnitude by splitting numbers into
arbitrary chunks. To alleviate this shortcoming, alternative approaches have
been proposed that modify numbers at various stages of the language modeling
pipeline. These methods change either the (1) notation in which numbers are
written (\eg scientific vs decimal), the (2) vocabulary used to represent
numbers or the entire (3) architecture of the underlying language model, to
directly regress to a desired number.
Previous work suggests that architectural change helps achieve
state-of-the-art on number estimation but we find an insightful ablation:
changing the model's vocabulary instead (\eg introduce a new token for numbers
in range 10-100) is a far better trade-off. In the context of masked number
prediction, a carefully designed tokenization scheme is both the simplest to
implement and sufficient, \ie with similar performance to the state-of-the-art
approach that requires making significant architectural changes. Finally, we
report similar trends on the downstream task of numerical fact estimation (for
Fermi Problems) and discuss reasons behind our findings.
- Abstract(参考訳): 最近の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
人間はその大きさに基づいて数値を概念化し、実質的に数列に投影するが、サブワードのトークン化は数字を任意のチャンクに分割することで明確に大きさを捉えることができない。
この欠点を軽減するために、言語モデリングパイプラインの様々な段階の数値を変更する別のアプローチが提案されている。
これらの手法は、(1)数字が書かれる表記法 (\eg scientific vs decimal)、(2)数を表すために使われる語彙、または基礎となる言語モデルの全体 (3) アーキテクチャを変更して、直接望まれる数に回帰する。
以前の研究は、アーキテクチャの変更が数値推定の最先端を達成するのに役立つことを示唆している。しかし、私たちは洞察に富んだアブレーションを見出した:モデルの語彙を変更する(\egが10~100の範囲の数値に新しいトークンを導入する)ことは、はるかに優れたトレードオフである。
マスク付き数予測の文脈では、慎重に設計されたトークン化スキームは実装が最も簡単で十分であり、アーキテクチャ上の大きな変更を必要とする最先端のアプローチと同じようなパフォーマンスを持つ。
最後に,数値的事実推定の下流課題(フェルミ問題)について同様の傾向を報告し,その背景にある理由について考察する。
関連論文リスト
- Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5346260093097017]
本稿では,言語モデルに対するトークン損失の2つのバージョンを示す。
1つ目は、基底真理トークン値と予測クラス確率の重み付け和との間の損失$L_p$である。
第2の損失は、予測出力確率の分布と基底真理分布の間のワッサーシュタイン-1距離を最小化する。
論文 参考訳(メタデータ) (2024-11-04T13:43:24Z) - How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
1+2の代わりに100+200を解くような一般化は、モデルの性能に大きく影響する。
数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。
我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文 参考訳(メタデータ) (2024-07-01T01:31:41Z) - Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-04-02T00:02:00Z) - NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning [27.584258258635945]
言語モデルは数値データを扱い、算術演算を行うのに苦労する。
本稿では,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
論文 参考訳(メタデータ) (2024-03-30T19:46:59Z) - xVal: A Continuous Number Encoding for Large Language Models [42.19323262199993]
一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。
我々は,いくつかの合成および実世界のデータセットに対する提案を実証的に評価した。
論文 参考訳(メタデータ) (2023-10-04T17:26:16Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文 参考訳(メタデータ) (2022-05-13T16:10:13Z) - Numerical reasoning in machine reading comprehension tasks: are we there
yet? [79.07883990966077]
数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。
DROPベンチマークは、この課題を解決することを目的としたNLPモデルの設計にインスピレーションを与えた最近のデータセットである。
DROPリーダーボードにおけるこれらのモデルの現在の立場は、標準メトリクスよりも、モデルがほぼ人間に近いパフォーマンスを達成したことを示唆している。
論文 参考訳(メタデータ) (2021-09-16T20:13:56Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。