論文の概要: Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency
- arxiv url: http://arxiv.org/abs/2305.08246v1
- Date: Sun, 14 May 2023 20:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:48:04.408451
- Title: Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency
- Title(参考訳): 言語能力の犠牲を伴わない非言語スキルの学習
- Authors: Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan
- Abstract要約: 非言語的なスキルインジェクションは、コア言語スキルを壊滅的に忘れてしまう。
我々のモデルは、注入された非言語的スキルと言語知識の保持の両方において、最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 14.618731441943847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Math-NLP has witnessed significant growth in recent years,
motivated by the desire to expand LLM performance to the learning of
non-linguistic notions (numerals, and subsequently, arithmetic reasoning).
However, non-linguistic skill injection typically comes at a cost for LLMs: it
leads to catastrophic forgetting of core linguistic skills, a consequence that
often remains unaddressed in the literature. As Math-NLP has been able to
create LLMs that can closely approximate the mathematical skills of a
grade-schooler or the arithmetic reasoning skills of a calculator, the
practicality of these models fail if they concomitantly shed their linguistic
capabilities. In this work, we take a closer look into the phenomena of
catastrophic forgetting as it pertains to LLMs and subsequently offer a novel
framework for non-linguistic skill injection for LLMs based on information
theoretic interventions and skill-specific losses that enable the learning of
strict arithmetic reasoning. Our model outperforms the state-of-the-art both on
injected non-linguistic skills and on linguistic knowledge retention, and does
so with a fraction of the non-linguistic training data (1/4) and zero
additional synthetic linguistic training data.
- Abstract(参考訳): 近年のMath-NLPの分野は、LLMのパフォーマンスを非言語的概念(数、そしてその後の算術的推論)の学習に拡大したいという願望に動機付けられて、著しい成長をみせている。
しかし、非言語的スキルインジェクションは、一般的にllmのコストがかかる:それは、コア言語スキルが壊滅的に忘れ去られてしまうことにつながる。
Math-NLP は、小学生の数学的スキルや計算機の算術的推論スキルを正確に近似できる LLM を作成することができるため、これらのモデルの実用性は、それらが言語能力を損なうと失敗する。
本研究は, LLMに関する破滅的忘れの現象を深く考察し, 厳密な算術推論の学習を可能にする情報理論的介入とスキル特異的損失に基づく, LLMの非言語的スキル注入のための新しい枠組みを提供する。
本モデルは,非言語的スキルと言語的知識の保持の両方において最先端を上回っており,非言語的訓練データ(1/4)およびゼロの追加的な言語的訓練データを用いている。
関連論文リスト
- Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。
近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。
本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文 参考訳(メタデータ) (2024-10-20T07:22:23Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Limits for Learning with Language Models [4.20859414811553]
大規模言語モデル(LLM)がボレル階層の第一段階を超えて概念を学習できないことを示す。
LLMは、細部と深い言語的理解を必要とするタスクについて、正式な保証なしに運用を続ける。
論文 参考訳(メタデータ) (2023-06-21T12:11:31Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z) - Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic [14.618731441943847]
我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。