論文の概要: Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic
- arxiv url: http://arxiv.org/abs/2211.02098v1
- Date: Thu, 3 Nov 2022 18:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 15:42:21.281975
- Title: Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic
- Title(参考訳): 言語モデリングにおけるスキル注入の障壁を克服する--算術のケーススタディ
- Authors: Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan
- Abstract要約: 我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
- 参考スコア(独自算出の注目度): 14.618731441943847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through their transfer learning abilities, highly-parameterized large
pre-trained language models have dominated the NLP landscape for a multitude of
downstream language tasks. Though linguistically proficient, the inability of
these models to incorporate the learning of non-linguistic entities (numerals
and arithmetic reasoning) limits their usage for tasks that require numeric
comprehension or strict mathematical reasoning. However, as we illustrate in
this paper, building a general purpose language model that also happens to be
proficient in mathematical reasoning is not as straight-forward as training it
on a numeric dataset. In this work, we develop a novel framework that enables
language models to be mathematically proficient while retaining their
linguistic prowess. Specifically, we offer information-theoretic interventions
to overcome the catastrophic forgetting of linguistic skills that occurs while
injecting non-linguistic skills into language models.
- Abstract(参考訳): 伝達学習能力を通じて、高度にパラメータ化された大規模事前学習言語モデルは、下流言語タスクにおいて、NLPのランドスケープを支配してきた。
言語学的に熟練しているが、これらのモデルが非言語的実体(数論と算術的推論)の学習を取り入れられないことは、数値的理解や厳密な数学的推論を必要とするタスクでの使用を制限している。
しかし,本稿で示すように,数学的推論にも熟達した汎用言語モデルの構築は,数値データセット上でのトレーニングほど直接的ではない。
本研究では,言語モデルが言語能力を維持しつつ,数学的に熟達できる新しい枠組みを考案する。
具体的には,非言語的スキルを言語モデルに注入しながら生じる言語スキルの破滅的な忘れを克服するために,情報理論的な介入を行う。
関連論文リスト
- Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.282850445579857]
推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。
自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文 参考訳(メタデータ) (2024-10-07T02:31:47Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Arithmetic with Language Models: from Memorization to Computation [3.077668143048211]
本研究は、次のトークンを予測するために訓練された言語モデルが、トレーニングデータを超えて一般化された算術演算を実行する方法を検討する。
我々はこれらのタスクを学ぶために軽言語モデルを訓練し、外挿能力と内部情報処理を調べるために多くの実験を行った。
論文 参考訳(メタデータ) (2023-08-02T13:58:37Z) - Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency [14.618731441943847]
非言語的なスキルインジェクションは、コア言語スキルを壊滅的に忘れてしまう。
我々のモデルは、注入された非言語的スキルと言語知識の保持の両方において、最先端技術よりも優れています。
論文 参考訳(メタデータ) (2023-05-14T20:57:11Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。