論文の概要: xVal: A Continuous Numerical Tokenization for Scientific Language Models
- arxiv url: http://arxiv.org/abs/2310.02989v2
- Date: Sun, 15 Dec 2024 07:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:57.636213
- Title: xVal: A Continuous Numerical Tokenization for Scientific Language Models
- Title(参考訳): xVal:科学言語モデルのための連続的な数値トークン化
- Authors: Siavash Golkar, Mariel Pettee, Michael Eickenberg, Alberto Bietti, Miles Cranmer, Geraud Krawezik, Francois Lanusse, Michael McCabe, Ruben Ohana, Liam Parker, Bruno Régaldo-Saint Blancard, Tiberiu Tesileanu, Kyunghyun Cho, Shirley Ho,
- Abstract要約: 我々は、言語モデル内で数値を継続的にトークン化する戦略であるxValを紹介した。
我々は、テキストとしてフォーマットされたさまざまな科学的データセットに基づいて、スクラッチから特別に修正された言語モデルを訓練する。
- 参考スコア(独自算出の注目度): 41.26924657687872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due in part to their discontinuous and discrete default encodings for numbers, Large Language Models (LLMs) have not yet been commonly used to process numerically-dense scientific datasets. Rendering datasets as text, however, could help aggregate diverse and multi-modal scientific data into a single training corpus, thereby potentially facilitating the development of foundation models for science. In this work, we introduce xVal, a strategy for continuously tokenizing numbers within language models that results in a more appropriate inductive bias for scientific applications. By training specially-modified language models from scratch on a variety of scientific datasets formatted as text, we find that xVal generally outperforms other common numerical tokenization strategies on metrics including out-of-distribution generalization and computational efficiency.
- Abstract(参考訳): 数値に対する不連続かつ離散的なデフォルト符号化のために、Large Language Models (LLMs) は数値密度の科学データセットの処理に一般的には使われていない。
しかし、データセットをテキストとしてレンダリングすることは、多種多様な科学データを単一のトレーニングコーパスにまとめるのに役立ち、科学の基礎モデルの開発を促進する可能性がある。
本稿では,言語モデル内の数値を連続的にトークン化する戦略であるxValを紹介する。
テキストとしてフォーマットされた様々な科学データセットを用いて、特殊修飾言語モデルをスクラッチから訓練することにより、xValは、アウト・オブ・ディストリビューションの一般化や計算効率など、他の一般的な数値トークン化戦略よりも優れることがわかった。
関連論文リスト
- Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-04-02T00:02:00Z) - NumeroLogic: Number Encoding for Enhanced LLMs' Numerical Reasoning [27.584258258635945]
言語モデルは数値データを扱い、算術演算を行うのに苦労する。
本稿では,各数字の前に数字の個数を含めることで,数がどのように表現されるかを簡単に調整する。
モデルにまず数字の数を考慮させることで、実際の数字を生成する前に推論プロセスを強化する。
論文 参考訳(メタデータ) (2024-03-30T19:46:59Z) - Computational Models to Study Language Processing in the Human Brain: A Survey [47.81066391664416]
本稿では,脳研究における計算モデルの利用の取り組みを概観し,新たな傾向を浮き彫りにしている。
我々の分析によると、すべてのデータセットで他のモデルよりも優れているモデルはない。
論文 参考訳(メタデータ) (2024-03-20T08:01:22Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Multi-Candidate Speculative Decoding [82.05519287513444]
大規模な言語モデルは、様々なNLPタスクで印象的な機能を示してきたが、その生成は自動回帰的に時間を要する。
これは高速なドラフトモデルから候補セグメントを生成し、ターゲットモデルによって並列に検証する。
本稿では,複数の候補をドラフトモデルから抽出し,検証のためにバッチにまとめる手法を提案する。
対象モデルの分布を維持しつつ,効率的な多候補検証のためのアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-01-12T17:15:23Z) - Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。
代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。
代わりにモデルの語彙を変更する(例えば、範囲10~100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文 参考訳(メタデータ) (2023-10-09T23:07:05Z) - Arithmetic with Language Models: from Memorization to Computation [3.077668143048211]
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
我々はこれらのタスクを学ぶために軽言語モデルを訓練し、外挿能力と内部情報処理を調べるために多くの実験を行った。
論文 参考訳(メタデータ) (2023-08-02T13:58:37Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text [1.8502316793903635]
MISTデータセットは5つの科学領域に3737のモーダル・インスタンスを含み、それらの意味、実用的、または修辞的機能に注釈を付ける。
我々は、MIST上で競合するニューラルネットワークの集合を体系的に評価する。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用で異なることを示す証拠を提供する。
論文 参考訳(メタデータ) (2022-12-14T11:10:03Z) - Reflection of Thought: Inversely Eliciting Numerical Reasoning in
Language Models via Solving Linear Systems [42.782260686177395]
本稿では,事前学習言語モデルに隠された数値推論知識を抽出し,活用するための新しい手法を提案する。
まず、単純な数値をアンカーとして利用して、暗黙的に推論された算術表現を言語モデルから探索する。
我々は、解析的に解決可能な線形システムとしてタスクを変換し、定式化する。
論文 参考訳(メタデータ) (2022-10-11T00:57:19Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Probing for the Usage of Grammatical Number [103.8175326220026]
私たちは、モデルが実際に使用しているエンコーディングを見つけようと試み、使用量ベースの探索設定を導入しました。
BERTの文法的数値のエンコード方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。
論文 参考訳(メタデータ) (2022-04-19T11:59:52Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - A Cognitive Regularizer for Language Modeling [36.256053903862956]
UIDを正規化として符号化することで、言語モデルをトレーニングするための標準MLEの目的を拡大する。
UID正規化の使用は言語モデルの難易度を一貫して改善する。
また、UID正規化言語モデルはエントロピーが高く、より長く、より語彙的に多様なテキストを生成する。
論文 参考訳(メタデータ) (2021-05-15T05:37:42Z) - An Empirical Investigation of Contextualized Number Prediction [34.56914472173953]
本研究では,(1)未知の数値を文内に予測する仮数予測と,(2)誤りの少ない数値を文内に検出する数値検出という2つのタスクについて考察する。
本稿では,潜在変数を組み込んで表現性を付加し,テキスト実行時の数値値の自然分布をよりよく適合させる出力分布パラメータ化スイートを提案する。
金融分野と科学分野の2つの数値データセット上でこれらのモデルを評価する。
論文 参考訳(メタデータ) (2020-10-20T23:12:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。