論文の概要: xVal: A Continuous Number Encoding for Large Language Models
- arxiv url: http://arxiv.org/abs/2310.02989v1
- Date: Wed, 4 Oct 2023 17:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:39:33.882350
- Title: xVal: A Continuous Number Encoding for Large Language Models
- Title(参考訳): xVal: 大規模言語モデルのための連続数値エンコーディング
- Authors: Siavash Golkar, Mariel Pettee, Michael Eickenberg, Alberto Bietti,
Miles Cranmer, Geraud Krawezik, Francois Lanusse, Michael McCabe, Ruben
Ohana, Liam Parker, Bruno R\'egaldo-Saint Blancard, Tiberiu Tesileanu,
Kyunghyun Cho, Shirley Ho
- Abstract要約: 一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。
我々は,いくつかの合成および実世界のデータセットに対する提案を実証的に評価した。
- 参考スコア(独自算出の注目度): 42.19323262199993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have not yet been broadly adapted for the analysis of
scientific datasets due in part to the unique difficulties of tokenizing
numbers. We propose xVal, a numerical encoding scheme that represents any real
number using just a single token. xVal represents a given real number by
scaling a dedicated embedding vector by the number value. Combined with a
modified number-inference approach, this strategy renders the model end-to-end
continuous when considered as a map from the numbers of the input string to
those of the output string. This leads to an inductive bias that is generally
more suitable for applications in scientific domains. We empirically evaluate
our proposal on a number of synthetic and real-world datasets. Compared with
existing number encoding schemes, we find that xVal is more token-efficient and
demonstrates improved generalization.
- Abstract(参考訳): 大規模言語モデルはまだ、数値をトークン化することの難しさから、科学データセットの分析に広く適応していない。
一つのトークンを用いて任意の実数を表す数値符号化方式であるxValを提案する。
xValは、専用の埋め込みベクトルを数値でスケーリングすることで、与えられた実数を表す。
この戦略は、修正された数値推論アプローチと組み合わせて、入力文字列の数値から出力文字列の値へのマップとして考慮された場合、モデルのエンドツーエンド連続を描画する。
これは一般に科学分野の応用に適している帰納的バイアスにつながる。
我々は,いくつかの合成データと実世界のデータセットについて,提案を実証的に評価した。
既存の数値符号化方式と比較して、xValはトークン効率が良く、一般化が向上している。
関連論文リスト
- Language Modeling on Tabular Data: A Survey of Foundations, Techniques and Evolution [7.681258910515419]
タブラルデータは、その異種の性質と複雑な構造的関係により、固有の課題を示す。
表型データ解析における高い予測性能とロバスト性は、多くのアプリケーションにとって大きな可能性を秘めている。
GPTやLLaMAといった最近の大規模言語モデルの出現はこの分野にさらなる革命をもたらし、最小限の微調整でより高度で多様なアプリケーションを容易にした。
論文 参考訳(メタデータ) (2024-08-20T04:59:19Z) - Computational Models to Study Language Processing in the Human Brain: A Survey [47.81066391664416]
本稿では,脳研究における計算モデルの利用の取り組みを概観し,新たな傾向を浮き彫りにしている。
我々の分析によると、すべてのデータセットで他のモデルよりも優れているモデルはない。
論文 参考訳(メタデータ) (2024-03-20T08:01:22Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Arithmetic with Language Models: from Memorization to Computation [3.077668143048211]
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
我々はこれらのタスクを学ぶために軽言語モデルを訓練し、外挿能力と内部情報処理を調べるために多くの実験を行った。
論文 参考訳(メタデータ) (2023-08-02T13:58:37Z) - MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text [1.8502316793903635]
MISTデータセットは5つの科学領域に3737のモーダル・インスタンスを含み、それらの意味、実用的、または修辞的機能に注釈を付ける。
我々は、MIST上で競合するニューラルネットワークの集合を体系的に評価する。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用で異なることを示す証拠を提供する。
論文 参考訳(メタデータ) (2022-12-14T11:10:03Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - A Cognitive Regularizer for Language Modeling [36.256053903862956]
UIDを正規化として符号化することで、言語モデルをトレーニングするための標準MLEの目的を拡大する。
UID正規化の使用は言語モデルの難易度を一貫して改善する。
また、UID正規化言語モデルはエントロピーが高く、より長く、より語彙的に多様なテキストを生成する。
論文 参考訳(メタデータ) (2021-05-15T05:37:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。