論文の概要: xVal: A Continuous Numerical Tokenization for Scientific Language Models
- arxiv url: http://arxiv.org/abs/2310.02989v2
- Date: Sun, 15 Dec 2024 07:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:33.220587
- Title: xVal: A Continuous Numerical Tokenization for Scientific Language Models
- Title(参考訳): xVal:科学言語モデルのための連続的な数値トークン化
- Authors: Siavash Golkar, Mariel Pettee, Michael Eickenberg, Alberto Bietti, Miles Cranmer, Geraud Krawezik, Francois Lanusse, Michael McCabe, Ruben Ohana, Liam Parker, Bruno Régaldo-Saint Blancard, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho,
- Abstract要約: 我々は、言語モデル内で数値を継続的にトークン化する戦略であるxValを紹介した。
我々は、テキストとしてフォーマットされたさまざまな科学的データセットに基づいて、スクラッチから特別に修正された言語モデルを訓練する。
- 参考スコア(独自算出の注目度): 41.26924657687872
- License:
- Abstract: Due in part to their discontinuous and discrete default encodings for numbers, Large Language Models (LLMs) have not yet been commonly used to process numerically-dense scientific datasets. Rendering datasets as text, however, could help aggregate diverse and multi-modal scientific data into a single training corpus, thereby potentially facilitating the development of foundation models for science. In this work, we introduce xVal, a strategy for continuously tokenizing numbers within language models that results in a more appropriate inductive bias for scientific applications. By training specially-modified language models from scratch on a variety of scientific datasets formatted as text, we find that xVal generally outperforms other common numerical tokenization strategies on metrics including out-of-distribution generalization and computational efficiency.
- Abstract(参考訳): 数値に対する不連続かつ離散的なデフォルト符号化のために、Large Language Models (LLMs) は数値密度の科学データセットの処理に一般的には使われていない。
しかし、データセットをテキストとしてレンダリングすることは、多種多様な科学データを単一のトレーニングコーパスにまとめるのに役立ち、科学の基礎モデルの開発を促進する可能性がある。
本稿では,言語モデル内の数値を連続的にトークン化する戦略であるxValを紹介する。
テキストとしてフォーマットされた様々な科学データセットを用いて、特殊修飾言語モデルをスクラッチから訓練することにより、xValは、アウト・オブ・ディストリビューションの一般化や計算効率など、他の一般的な数値トークン化戦略よりも優れることがわかった。
関連論文リスト
- Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-04-02T00:02:00Z) - NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning [27.584258258635945]
言語モデルは数値データを扱い、算術演算を行うのに苦労する。
本稿では,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
論文 参考訳(メタデータ) (2024-03-30T19:46:59Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Probing for the Usage of Grammatical Number [103.8175326220026]
私たちは、モデルが実際に使用しているエンコーディングを見つけようと試み、使用量ベースの探索設定を導入しました。
BERTの文法的数値のエンコード方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-04-19T11:59:52Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - An Empirical Investigation of Contextualized Number Prediction [34.56914472173953]
本研究では,(1)未知の数値を文内に予測する仮数予測と,(2)誤りの少ない数値を文内に検出する数値検出という2つのタスクについて考察する。
本稿では,潜在変数を組み込んで表現性を付加し,テキスト実行時の数値値の自然分布をよりよく適合させる出力分布パラメータ化スイートを提案する。
金融分野と科学分野の2つの数値データセット上でこれらのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-20T23:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。