論文の概要: Representing Numbers in NLP: a Survey and a Vision
- arxiv url: http://arxiv.org/abs/2103.13136v1
- Date: Wed, 24 Mar 2021 12:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:14:35.403476
- Title: Representing Numbers in NLP: a Survey and a Vision
- Title(参考訳): NLPにおける数値表現 : 調査と展望
- Authors: Avijit Thawani, Jay Pujara, Pedro A. Szekely, Filip Ilievski
- Abstract要約: 数値に関する最近のNLP作業は、タスクとメソッドの包括的な分類に整理します。
我々は以前に発行された18個の数値エンコーダとデコーダによる無数の表現選択を解析する。
テキストにおける数値表現のベストプラクティスを合成し、NLPにおける全体的数値化のビジョンを具現化します。
- 参考スコア(独自算出の注目度): 15.035458171592191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: NLP systems rarely give special consideration to numbers found in text. This
starkly contrasts with the consensus in neuroscience that, in the brain,
numbers are represented differently from words. We arrange recent NLP work on
numeracy into a comprehensive taxonomy of tasks and methods. We break down the
subjective notion of numeracy into 7 subtasks, arranged along two dimensions:
granularity (exact vs approximate) and units (abstract vs grounded). We analyze
the myriad representational choices made by 18 previously published number
encoders and decoders. We synthesize best practices for representing numbers in
text and articulate a vision for holistic numeracy in NLP, comprised of design
trade-offs and a unified evaluation.
- Abstract(参考訳): NLPシステムは、テキスト中の数字に特別な考慮を与えることは滅多にない。
これは神経科学のコンセンサスとは全く対照的で、脳では数字は単語とは異なる表現である。
我々は,最近のNLPの数値化に関する研究を,タスクとメソッドの包括的分類に整理する。
数値の主観的な概念を7つのサブタスクに分解し、粒度(実数対近似)と単位(抽象対接地)の2次元に沿って配置した。
我々は以前に発行された18個の数値エンコーダとデコーダによる無数の表現選択を解析する。
我々は,テキストで数を表すためのベストプラクティスを合成し,設計トレードオフと統一評価からなる NLP の全体的数性に対するビジョンを明確にする。
関連論文リスト
- Number Cookbook: Number Understanding of Language Models and How to Improve It [63.9542740221096]
大規模言語モデル(LLM)は、基本的な数値的な理解と処理において予期せぬ誤りを犯しながら、複雑な推論タスクの増大を解決することができる。
本稿では,LLMの数値理解と処理能力(NUPA)について包括的に検討する。
論文 参考訳(メタデータ) (2024-11-06T08:59:44Z) - Laying Anchors: Semantically Priming Numerals in Language Modeling [11.831883526217942]
我々は,任意のコーパスにおいて,そのコーパス内の数値の分布に支配されるアンカーを生成することによって,意味的に素数に戦略を導入する。
学習した埋め込みの数学的基礎の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-04-02T00:02:00Z) - A Taxonomy of Ambiguity Types for NLP [53.10379645698917]
NLP分析を容易にするために,英語で見られるあいまいさの分類法を提案する。
私たちの分類学は、言語あいまいさデータにおいて意味のある分割を実現するのに役立ち、データセットとモデルパフォーマンスのよりきめ細かい評価を可能にします。
論文 参考訳(メタデータ) (2024-03-21T01:47:22Z) - GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and
Linguistic Evaluation [15.886585212606787]
GENTLEは17Kトークンからなる新しい混成英語チャレンジコーパスである。
GENTLEは様々なNLPタスクに手動で注釈付けされる。
我々は、GENTLE上での最先端NLPシステムの評価を行い、全てのタスクにおいて、少なくともいくつかのジャンルにおいて深刻な劣化が見られた。
論文 参考訳(メタデータ) (2023-06-03T00:20:15Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - Number Entity Recognition [65.80137628972312]
番号は他のワードトークンと同様に、自然言語処理(NLP)モデルを構築し、デプロイするテキストの必須コンポーネントである。
本研究では、最先端のNLPモデルの可能性を活用し、関連するタスクにおける性能向上能力の伝達を試みる。
提案した数値をエンティティに分類することで,手作りのFill-In-The-Blank (FITB)タスクや,関節埋め込みを用いた質問応答など,NLPモデルの性能が向上する。
論文 参考訳(メタデータ) (2022-05-07T05:22:43Z) - NumGPT: Improving Numeracy Ability of Generative Pre-trained Models [59.931394234642816]
テキスト中の数値特性を明示的にモデル化する生成事前学習モデルであるNumGPTを提案する。
具体的には、プロトタイプベースの数値埋め込みを利用して、数値の行列をエンコードし、個々の埋め込みをエンコードし、数値の指数をエンコードする。
数値認識損失関数は、NumGPTの事前学習目的に数値を統合するように設計されている。
論文 参考訳(メタデータ) (2021-09-07T15:06:12Z) - Graph Neural Networks for Natural Language Processing: A Survey [64.36633422999905]
本稿では,自然言語処理のためのグラフニューラルネットワーク(GNN)について概観する。
我々は,グラフ構築,グラフ表現学習,グラフベースエンコーダ・デコーダモデルという3つの軸に沿って,NLP用GNNの既存の研究を組織する,NLP用GNNの新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-06-10T23:59:26Z) - A Cross-Task Analysis of Text Span Representations [52.28565379517174]
最適なスパン表現はタスクによって異なり、個々のタスクの異なる側面でも異なることが分かる。
また、スパン表現の選択は、微調整エンコーダよりも、固定された事前訓練エンコーダによる影響が大きいことも判明した。
論文 参考訳(メタデータ) (2020-06-06T13:37:51Z) - Learning Numeral Embeddings [20.951228068643946]
既存の単語埋め込み法は、無限個の数字が存在するため、数値埋め込みをうまく学ばない。
本稿では,2つの新しい数値埋め込み手法を提案する。
論文 参考訳(メタデータ) (2019-12-28T03:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。