Fugu-MT 論文翻訳(概要): Estimating Numbers without Regression

論文の概要: Estimating Numbers without Regression

arxiv url: http://arxiv.org/abs/2310.06204v1
Date: Mon, 9 Oct 2023 23:07:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-11 21:16:04.943987
Title: Estimating Numbers without Regression
Title（参考訳）: 回帰のない数の推定
Authors: Avijit Thawani and Jay Pujara and Ashwin Kalyan
Abstract要約: 近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。代わりにモデルの語彙を変更する(例えば、範囲10～100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
参考スコア（独自算出の注目度）: 30.79061214333164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent successes in language models, their ability to represent numbers is insufficient. Humans conceptualize numbers based on their magnitudes, effectively projecting them on a number line; whereas subword tokenization fails to explicitly capture magnitude by splitting numbers into arbitrary chunks. To alleviate this shortcoming, alternative approaches have been proposed that modify numbers at various stages of the language modeling pipeline. These methods change either the (1) notation in which numbers are written (\eg scientific vs decimal), the (2) vocabulary used to represent numbers or the entire (3) architecture of the underlying language model, to directly regress to a desired number. Previous work suggests that architectural change helps achieve state-of-the-art on number estimation but we find an insightful ablation: changing the model's vocabulary instead (\eg introduce a new token for numbers in range 10-100) is a far better trade-off. In the context of masked number prediction, a carefully designed tokenization scheme is both the simplest to implement and sufficient, \ie with similar performance to the state-of-the-art approach that requires making significant architectural changes. Finally, we report similar trends on the downstream task of numerical fact estimation (for Fermi Problems) and discuss reasons behind our findings.
Abstract（参考訳）: 最近の言語モデルの成功にもかかわらず、数を表す能力は不十分である。人間はその大きさに基づいて数値を概念化し、実質的に数列に投影するが、サブワードのトークン化は数字を任意のチャンクに分割することで明確に大きさを捉えることができない。この欠点を軽減するために、言語モデリングパイプラインの様々な段階の数値を変更する別のアプローチが提案されている。これらの手法は、(1)数字が書かれる表記法 (\eg scientific vs decimal)、(2)数を表すために使われる語彙、または基礎となる言語モデルの全体 (3) アーキテクチャを変更して、直接望まれる数に回帰する。以前の研究は、アーキテクチャの変更が数値推定の最先端を達成するのに役立つことを示唆している。しかし、私たちは洞察に富んだアブレーションを見出した:モデルの語彙を変更する(\egが10～100の範囲の数値に新しいトークンを導入する)ことは、はるかに優れたトレードオフである。マスク付き数予測の文脈では、慎重に設計されたトークン化スキームは実装が最も簡単で十分であり、アーキテクチャ上の大きな変更を必要とする最先端のアプローチと同じようなパフォーマンスを持つ。最後に,数値的事実推定の下流課題(フェルミ問題)について同様の傾向を報告し,その背景にある理由について考察する。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
FoNE: Precise Single-Token Number Embeddings via Fourier Features [51.17846016593835]
本稿では,数値をFourierの特徴を持つ埋め込み空間にマッピングする新しい手法を提案する。 FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。 6桁の10進法では、FoNEはサブワードや桁の埋め込みよりも99%の精度を達成するために64$times$少ないデータを必要とする。 FoNEは、加算、減算、乗算の10万以上の試験例で100%精度を得る唯一の方法である。
論文参考訳（メタデータ） (2025-02-13T19:54:59Z)
Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5346260093097017]
本稿では,言語モデルに対するトークン損失の2つのバージョンを示す。 1つ目は、基底真理トークン値と予測クラス確率の重み付け和との間の損失$L_p$である。第2の損失は、予測出力確率の分布と基底真理分布の間のワッサーシュタイン-1距離を最小化する。
論文参考訳（メタデータ） (2024-11-04T13:43:24Z)
Interleaving Text and Number Embeddings to Solve Mathemathics Problems [0.0]
我々は、より表現力のある数値埋め込みを導入することで、近年のアプローチを構築している。本手法は, 数値アーチファクトの除去, クリッピングを伴わずに広範囲のマグニチュードを扱う能力など, 重要な欠点に対処する。
論文参考訳（メタデータ） (2024-10-25T07:21:57Z)
How to Leverage Digit Embeddings to Represent Numbers? [13.880400817682059]
1+2の代わりに100+200を解くような一般化は、モデルの性能に大きく影響する。数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
論文参考訳（メタデータ） (2024-07-01T01:31:41Z)
Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。学習した埋め込みの数学的基礎の大幅な改善を示す。
論文参考訳（メタデータ） (2024-04-02T00:02:00Z)
NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning [27.584258258635945]
言語モデルは数値データを扱い、算術演算を行うのに苦労する。本稿では,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する。モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
論文参考訳（メタデータ） (2024-03-30T19:46:59Z)
xVal: A Continuous Number Encoding for Large Language Models [42.19323262199993]
一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。我々は,いくつかの合成および実世界のデータセットに対する提案を実証的に評価した。
論文参考訳（メタデータ） (2023-10-04T17:26:16Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
Reflection of Thought: Inversely Eliciting Numerical Reasoning in Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文参考訳（メタデータ） (2022-10-11T00:57:19Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文参考訳（メタデータ） (2022-05-13T16:10:13Z)
Numerical reasoning in machine reading comprehension tasks: are we there yet? [79.07883990966077]
数値推論に基づく機械読解は、加算、減算、ソート、数え上げなどの算術演算を併用して、理解を読み取るタスクである。 DROPベンチマークは、この課題を解決することを目的としたNLPモデルの設計にインスピレーションを与えた最近のデータセットである。 DROPリーダーボードにおけるこれらのモデルの現在の立場は、標準メトリクスよりも、モデルがほぼ人間に近いパフォーマンスを達成したことを示唆している。
論文参考訳（メタデータ） (2021-09-16T20:13:56Z)
NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文参考訳（メタデータ） (2021-09-07T15:06:12Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。