論文の概要: Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency
- arxiv url: http://arxiv.org/abs/2305.08246v1
- Date: Sun, 14 May 2023 20:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:48:04.408451
- Title: Learning Non-linguistic Skills without Sacrificing Linguistic
Proficiency
- Title(参考訳): 言語能力の犠牲を伴わない非言語スキルの学習
- Authors: Mandar Sharma, Nikhil Muralidhar, Naren Ramakrishnan
- Abstract要約: 非言語的なスキルインジェクションは、コア言語スキルを壊滅的に忘れてしまう。
我々のモデルは、注入された非言語的スキルと言語知識の保持の両方において、最先端技術よりも優れています。
- 参考スコア(独自算出の注目度): 14.618731441943847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of Math-NLP has witnessed significant growth in recent years,
motivated by the desire to expand LLM performance to the learning of
non-linguistic notions (numerals, and subsequently, arithmetic reasoning).
However, non-linguistic skill injection typically comes at a cost for LLMs: it
leads to catastrophic forgetting of core linguistic skills, a consequence that
often remains unaddressed in the literature. As Math-NLP has been able to
create LLMs that can closely approximate the mathematical skills of a
grade-schooler or the arithmetic reasoning skills of a calculator, the
practicality of these models fail if they concomitantly shed their linguistic
capabilities. In this work, we take a closer look into the phenomena of
catastrophic forgetting as it pertains to LLMs and subsequently offer a novel
framework for non-linguistic skill injection for LLMs based on information
theoretic interventions and skill-specific losses that enable the learning of
strict arithmetic reasoning. Our model outperforms the state-of-the-art both on
injected non-linguistic skills and on linguistic knowledge retention, and does
so with a fraction of the non-linguistic training data (1/4) and zero
additional synthetic linguistic training data.
- Abstract(参考訳): 近年のMath-NLPの分野は、LLMのパフォーマンスを非言語的概念(数、そしてその後の算術的推論)の学習に拡大したいという願望に動機付けられて、著しい成長をみせている。
しかし、非言語的スキルインジェクションは、一般的にllmのコストがかかる:それは、コア言語スキルが壊滅的に忘れ去られてしまうことにつながる。
Math-NLP は、小学生の数学的スキルや計算機の算術的推論スキルを正確に近似できる LLM を作成することができるため、これらのモデルの実用性は、それらが言語能力を損なうと失敗する。
本研究は, LLMに関する破滅的忘れの現象を深く考察し, 厳密な算術推論の学習を可能にする情報理論的介入とスキル特異的損失に基づく, LLMの非言語的スキル注入のための新しい枠組みを提供する。
本モデルは,非言語的スキルと言語的知識の保持の両方において最先端を上回っており,非言語的訓練データ(1/4)およびゼロの追加的な言語的訓練データを用いている。
関連論文リスト
- FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Is Knowledge All Large Language Models Needed for Causal Reasoning? [12.898859965556698]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。
本稿では,「do-operators」を用いた新たな因果帰属モデルを提案する。
論文 参考訳(メタデータ) (2023-12-30T04:51:46Z) - Supervised Knowledge Makes Large Language Models Better In-context
Learners [97.71733265438044]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - A Theory for Emergence of Complex Skills in Language Models [56.947273387302616]
今日のAI製品の主要な要因は、パラメータセットとトレーニングコーパスのスケールアップ時に、言語モデルに新たなスキルが現れることだ。
本稿では,LSMの有名な(かつ実証的な)スケーリング法則と単純な統計的枠組みを用いて,その出現を解析する。
論文 参考訳(メタデータ) (2023-07-29T09:22:54Z) - Limits for Learning with Language Models [4.20859414811553]
大規模言語モデル(LLM)がボレル階層の第一段階を超えて概念を学習できないことを示す。
LLMは、細部と深い言語的理解を必要とするタスクについて、正式な保証なしに運用を続ける。
論文 参考訳(メタデータ) (2023-06-21T12:11:31Z) - Large Language Models Are Not Strong Abstract Reasoners [12.354660792999269]
大規模言語モデルは、さまざまな自然言語処理タスクにおいて、非常に大きなパフォーマンスを示しています。
LLMが人間のような認知能力を達成できるのか、あるいはこれらのモデルがいまだに根本から取り囲まれているのかは不明だ。
我々は,抽象的推論タスクの記憶以上の言語モデルを評価するための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-31T04:50:29Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Rethinking with Retrieval: Faithful Large Language Model Inference [91.66406351103484]
我々は検索(RR)で再考する新しいポストプロセッシング手法を提案する。
RRは、チェーン・オブ・シークレット・プロンプトから得られた推論ステップに基づいて、関連する外部知識を検索する。
複雑な3つの推論課題に対する GPT-3 を用いた広範囲な実験により RR の有効性を評価する。
論文 参考訳(メタデータ) (2022-12-31T22:35:34Z) - Overcoming Barriers to Skill Injection in Language Modeling: Case Study
in Arithmetic [14.618731441943847]
我々は,言語モデルが言語能力を維持しつつ数学的に熟練することを可能にする新しい枠組みを開発する。
具体的には、言語モデルに非言語的スキルを注入しながら発生する言語スキルの破滅的な忘れを克服するために、情報理論の介入を提供する。
論文 参考訳(メタデータ) (2022-11-03T18:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。