Fugu-MT 論文翻訳(概要): How to Leverage Digit Embeddings to Represent Numbers?

論文の概要: How to Leverage Digit Embeddings to Represent Numbers?

arxiv url: http://arxiv.org/abs/2407.00894v1
Date: Mon, 1 Jul 2024 01:31:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 01:07:34.934803
Title: How to Leverage Digit Embeddings to Represent Numbers?
Title（参考訳）: 数値表現にDigitの埋め込みを利用するには?
Authors: Jasivan Alex Sivakumar, Nafise Sadat Moosavi,
Abstract要約: 1+2の代わりに100+200を解くような一般化は、モデルの性能に大きく影響する。数字の文字レベルの埋め込みは、数値表現を改善するための有望なアプローチとして現れている。我々は、数値的な先行計算を用いて、集約された桁埋め込みを計算し、これらの集合をトランスフォーマーモデルに明示的に組み込む。
参考スコア（独自算出の注目度）: 13.880400817682059
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Apart from performing arithmetic operations, understanding numbers themselves is still a challenge for existing language models. Simple generalisations, such as solving 100+200 instead of 1+2, can substantially affect model performance (Sivakumar and Moosavi, 2023). Among various techniques, character-level embeddings of numbers have emerged as a promising approach to improve number representation. However, this method has limitations as it leaves the task of aggregating digit representations to the model, which lacks direct supervision for this process. In this paper, we explore the use of mathematical priors to compute aggregated digit embeddings and explicitly incorporate these aggregates into transformer models. This can be achieved either by adding a special token to the input embeddings or by introducing an additional loss function to enhance correct predictions. We evaluate the effectiveness of incorporating this explicit aggregation, analysing its strengths and shortcomings, and discuss future directions to better benefit from this approach. Our methods, while simple, are compatible with any pretrained model and require only a few lines of code, which we have made publicly available.
Abstract（参考訳）: 算術演算の他に、数自体を理解することは、既存の言語モデルにとって依然として課題である。 1+2の代わりに100+200を解くような単純な一般化は、モデル性能に大きな影響を与える(Sivakumar and Moosavi, 2023)。様々な技術の中で、数表現を改善するための有望なアプローチとして、数字の文字レベルの埋め込みが出現している。しかし,本手法では,数値表現をモデルに集約する作業が残されているため,このプロセスの直接の監督が欠如している。本稿では,数理的事前計算による数値埋め込みの計算について検討し,これらの集合をトランスフォーマーモデルに明示的に組み込む。これは入力埋め込みに特別なトークンを追加するか、正しい予測を強化するために損失関数を追加することで実現できる。我々は,この明示的なアグリゲーションを組み込むことの有効性を評価し,その強みと欠点を分析し,このアプローチのメリットを活かすための今後の方向性について議論する。私たちのメソッドはシンプルですが、任意の事前訓練されたモデルと互換性があり、数行のコードしか必要ありません。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models [2.5346260093097017]
本稿では,言語モデルに対するトークン損失の2つのバージョンを示す。 1つ目は、基底真理トークン値と予測クラス確率の重み付け和との間の損失$L_p$である。第2の損失は、予測出力確率の分布と基底真理分布の間のワッサーシュタイン-1距離を最小化する。
論文参考訳（メタデータ） (2024-11-04T13:43:24Z)
Interleaving Text and Number Embeddings to Solve Mathemathics Problems [0.0]
我々は、より表現力のある数値埋め込みを導入することで、近年のアプローチを構築している。本手法は, 数値アーチファクトの除去, クリッピングを伴わずに広範囲のマグニチュードを扱う能力など, 重要な欠点に対処する。
論文参考訳（メタデータ） (2024-10-25T07:21:57Z)
A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-03-15T12:05:44Z)
Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文参考訳（メタデータ） (2024-03-09T09:04:53Z)
Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。代わりにモデルの語彙を変更する(例えば、範囲10～100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文参考訳（メタデータ） (2023-10-09T23:07:05Z)
FERMAT: An Alternative to Accuracy for Numerical Reasoning [11.893004722079557]
数値推論は、既存のデータセットの単一スコアを用いて測定される。我々は、FERMATと呼ばれる、英語の数値推論のための多視点評価セットを導入する。 FerMATは、数理解、数学的操作、訓練依存など、様々な重要な数値推論の側面でモデルを評価する。
論文参考訳（メタデータ） (2023-05-27T15:00:45Z)
Mutual Exclusivity Training and Primitive Augmentation to Induce Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文参考訳（メタデータ） (2022-11-28T17:36:41Z)
Induced Natural Language Rationales and Interleaved Markup Tokens Enable Extrapolation in Large Language Models [8.166629393064097]
トレーニング例として提示されるものよりも長いシーケンスの予測を行う能力は、ディープラーニングモデルにとって難しい問題である。最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。
論文参考訳（メタデータ） (2022-08-24T11:25:27Z)
Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。 HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文参考訳（メタデータ） (2022-03-03T09:57:19Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
Teaching Autoregressive Language Models Complex Tasks By Demonstration [0.0]
自己回帰言語モデル(GPT-Neo)に、比較的少数の例で数学的タスクを実行するように教えることができる。長い分割問題を解き,残余を報告する200個の適切に構成されたデモを微調整した結果,最小のGPT-Neoモデルで80%以上の精度が得られた。
論文参考訳（メタデータ） (2021-09-05T15:25:28Z)
Investigating the Limitations of the Transformers with Simple Arithmetic Tasks [10.23804850480924]
その結果,表層形状における数値の表現方法がモデルの精度に強い影響を与えていることがわかった。現代の事前学習型言語モデルは,ごく少数の例から容易に算術を学習できると結論付けている。
論文参考訳（メタデータ） (2021-02-25T17:22:53Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文参考訳（メタデータ） (2020-09-11T16:35:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。