論文の概要: Learning Numeral Embeddings
- arxiv url: http://arxiv.org/abs/2001.00003v3
- Date: Sat, 11 Jan 2020 14:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:54:14.023415
- Title: Learning Numeral Embeddings
- Title(参考訳): 数字埋め込みの学習
- Authors: Chengyue Jiang, Zhonglin Nian, Kaihao Guo, Shanbo Chu, Yinggong Zhao,
Libin Shen, Kewei Tu
- Abstract要約: 既存の単語埋め込み法は、無限個の数字が存在するため、数値埋め込みをうまく学ばない。
本稿では,2つの新しい数値埋め込み手法を提案する。
- 参考スコア(独自算出の注目度): 20.951228068643946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embedding is an essential building block for deep learning methods for
natural language processing. Although word embedding has been extensively
studied over the years, the problem of how to effectively embed numerals, a
special subset of words, is still underexplored. Existing word embedding
methods do not learn numeral embeddings well because there are an infinite
number of numerals and their individual appearances in training corpora are
highly scarce. In this paper, we propose two novel numeral embedding methods
that can handle the out-of-vocabulary (OOV) problem for numerals. We first
induce a finite set of prototype numerals using either a self-organizing map or
a Gaussian mixture model. We then represent the embedding of a numeral as a
weighted average of the prototype number embeddings. Numeral embeddings
represented in this manner can be plugged into existing word embedding learning
approaches such as skip-gram for training. We evaluated our methods and showed
its effectiveness on four intrinsic and extrinsic tasks: word similarity,
embedding numeracy, numeral prediction, and sequence labeling.
- Abstract(参考訳): 単語埋め込みは自然言語処理のためのディープラーニング手法に不可欠なビルディングブロックである。
単語埋め込みは長年にわたって広範囲に研究されてきたが、単語の特殊部分集合である数字を効果的に埋め込む方法の問題はまだ未定である。
既存の単語埋め込み法は、無限個の数字があり、訓練コーパスにおける個々の出現が非常に少ないため、数値埋め込みをうまく学ばない。
本稿では,数量体に対する外オブボカブラリー(oov)問題を扱うための2つの新しい数値埋め込み法を提案する。
まず, 自己組織写像あるいはガウス混合モデルを用いて, 有限個の原数集合を誘導する。
次に、数値の埋め込みを、プロトタイプ数埋め込みの重み付き平均として表現する。
この方法で表現された数字埋め込みは、トレーニングのためのスキップグラムのような既存の単語埋め込み学習アプローチにプラグインすることができる。
提案手法を評価し,単語の類似性,組込み数量,数値予測,シーケンスラベリングの4つの内在的タスクにおいて有効性を示した。
関連論文リスト
- Disambiguating Numeral Sequences to Decipher Ancient Accounting Corpora [7.530971114462749]
古代・部分的に解読された原エラマイト(PE)文字について検討する。
書かれた数字は、それらを読むのに使われるシステムによって最大4つの異なる読みを持つことができる。
本稿では,このコーパスに記録された数値の値を決定するために,これらの読みのあいまいさを解消する作業について考察する。
論文 参考訳(メタデータ) (2025-01-31T18:10:31Z) - Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-04-02T00:02:00Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Multi hash embeddings in spaCy [1.6790532021482656]
spaCyは、単語の複数埋め込み表現を生成する機械学習システムである。
SpaCyのデフォルトの埋め込み層は、ハッシュ埋め込み層である。
この技術レポートでは、いくつかの歴史を概説し、paCyに埋め込み手法を詳しく紹介します。
論文 参考訳(メタデータ) (2022-12-19T06:03:04Z) - Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained
Language Models [67.48894919842576]
最先端の事前訓練された言語モデルは、数式を必要とするタスクにアウト・オブ・ボックスを適用すると、その能力より劣る傾向にある。
本稿では,Arithmetic-Based Pretrainingと呼ばれる拡張事前学習手法を提案する。
本実験は,算数性の向上を必要とする3つのタスクにおいて,算術的事前学習の有効性を示す。
論文 参考訳(メタデータ) (2022-05-13T16:10:13Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Sent2Matrix: Folding Character Sequences in Serpentine Manifolds for
Two-Dimensional Sentence [54.6266741821988]
テキストを2次元表現に変換し、Sent2Matrix法を開発する。
この手法は単語形態と境界の両方を明示的に組み込むことができる。
特に,本手法は,テキストを2次元フォーマットで表現する最初の試みである。
論文 参考訳(メタデータ) (2021-03-15T13:52:47Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Can a Fruit Fly Learn Word Embeddings? [16.280120177501733]
フルーツフライ脳は、神経科学で最も研究されたシステムの1つです。
ネットワークモチーフは単語の意味表現を学習し,静的および文脈依存の単語埋め込みを生成できることを示す。
また,fruit fly networkのモチーフはnlpの既存の手法に匹敵する性能を実現するだけでなく,計算資源のほんの一部しか使用できないことを示した。
論文 参考訳(メタデータ) (2021-01-18T05:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。