論文の概要: I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation
- arxiv url: http://arxiv.org/abs/2212.09246v1
- Date: Mon, 19 Dec 2022 04:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:29:45.376073
- Title: I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation
- Title(参考訳): I2D2:神経論理と自己刺激による誘導的知識蒸留
- Authors: Chandra Bhagavatula, Jena D. Hwang, Doug Downey, Ronan Le Bras, Ximing
Lu, Keisuke Sakaguchi, Swabha Swayamdipta, Peter West, Yejin Choi
- Abstract要約: 本稿では,ジェネリック生成の課題に着目し,コモンセンス知識の生成モデルについて検討する。
本稿では,西欧のシンボリック知識蒸留に追随する新しいコモンセンス蒸留フレームワークI2D2を紹介する。
我々の研究はジェネリックの新たなコーパス、Gen-A-Tomicに繋がる。
- 参考スコア(独自算出の注目度): 89.3775990725792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models, despite their rapid advancements powered by
scale, still fall short of robust commonsense capabilities. And yet, scale
appears to be the winning recipe; after all, the largest models seem to have
acquired the largest amount of commonsense capabilities. Or is it?
In this paper, we investigate the possibility of a seemingly impossible
match: can smaller language models with dismal commonsense capabilities (i.e.,
GPT-2), ever win over models that are orders of magnitude larger and better
(i.e., GPT-3), if the smaller models are powered with novel commonsense
distillation algorithms? The key intellectual question we ask here is whether
it is possible, if at all, to design a learning algorithm that does not benefit
from scale, yet leads to a competitive level of commonsense acquisition. In
this work, we study the generative models of commonsense knowledge, focusing on
the task of generating generics, statements of commonsense facts about everyday
concepts, e.g., birds can fly.
We introduce a novel commonsense distillation framework, I2D2, that loosely
follows the Symbolic Knowledge Distillation of West et al. but breaks the
dependence on the extreme-scale models as the teacher model by two innovations:
(1) the novel adaptation of NeuroLogic Decoding to enhance the generation
quality of the weak, off-the-shelf language models, and (2) self-imitation
learning to iteratively learn from the model's own enhanced commonsense
acquisition capabilities. Empirical results suggest that scale is not the only
way, as novel algorithms can be a promising alternative. Moreover, our study
leads to a new corpus of generics, Gen-A-Tomic, that is of the largest and
highest quality available to date.
- Abstract(参考訳): 事前訓練された言語モデルは、スケールによる急速な進歩にもかかわらず、依然として堅牢なコモンセンス能力に欠ける。
しかし、スケールが勝利のレシピのように見える。結局のところ、最大のモデルは最大のcommonsense能力を獲得したようだ。
それとも?
本稿では,不規則なコモンセンス能力を持つ小型言語モデル(gpt-2)が,新たなコモンセンス蒸留アルゴリズムを搭載した小型言語モデル(gpt-3)よりも桁違いに大きく優れたモデル(gpt-3)に勝てるか,という点について検討する。
ここで私たちが質問する重要な知的質問は、スケールの恩恵を受けない学習アルゴリズムを設計することは可能か、あるいは全く可能か、しかしながら、競争レベルのコモンセンス獲得に繋がるかどうかである。
本研究では,コモンセンス知識の生成モデルについて検討し,ジェネリクス生成の課題,鳥類が飛べるような日常概念に関するコモンセンス事実の言明に着目した。
本稿では,西欧のシンボリック・ナレッジ蒸留に追随する新しいコモンセンス蒸留フレームワークI2D2を導入するが,教師モデルとしての極規模のモデルへの依存を,(1)弱い,既成の言語モデルの生成品質を高めるためのニューロロジック・デコーディングの新たな適応,(2)モデルの強化されたコモンセンス獲得能力から反復的に学習するための自己刺激学習の2つの革新によって破壊する。
実験的な結果は、新しいアルゴリズムが有望な代替手段となるため、スケールが唯一の方法ではないことを示唆している。
さらに本研究では,現在利用可能な最大かつ高品質なジェネリックコーパスであるGen-A-Tomicについて検討した。
関連論文リスト
- BSDP: Brain-inspired Streaming Dual-level Perturbations for Online Open
World Object Detection [31.467501311528498]
私たちは、深層学習モデルを、人々の学習方法をシミュレートすることを目指しています。
既存のOWODアプローチは未知のカテゴリの同定に注意を払う一方で、漸進的な学習も非常に重要である。
本稿では,古い知識を忘れることなく,新しい知識を学習しやすくするために,古いサンプルの二重レベル情報を新しいサンプルの摂動として捉えた。
論文 参考訳(メタデータ) (2024-03-05T04:00:50Z) - Class incremental learning with probability dampening and cascaded gated classifier [4.285597067389559]
本稿では, Margin Dampening と Cascaded Scaling という新たな漸進正規化手法を提案する。
1つ目は、ソフト制約と知識蒸留のアプローチを組み合わせて、過去の知識を保存し、新しいパターンを忘れることを可能にします。
提案手法は,複数のベンチマークにおいて,確立されたベースラインで良好に動作することを示す。
論文 参考訳(メタデータ) (2024-02-02T09:33:07Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Symbolic Knowledge Distillation: from General Language Models to
Commonsense Models [38.29726383331247]
一般的な言語モデルは、コモンセンスモデルを訓練するための知識グラフを作成できる。
ニューラルモデルに加えて、記号的にテキストとして知識を蒸留する。
人間が作成したコモンセンス知識グラフが、私たちの自動蒸留変種に取って代わられるのは初めてです。
論文 参考訳(メタデータ) (2021-10-14T06:50:19Z) - DISCOS: Bridging the Gap between Discourse Knowledge and Commonsense
Knowledge [42.08569149041291]
代替コモンセンス知識獲得フレームワーク DISCOS を提案します。
DISCOSは高価なコモンセンス知識をより手頃な言語知識資源に投入する。
我々は,ASERの中核部にATOMICを投入することにより,3.4M ATOMICライクな推論コモンセンス知識を得ることができる。
論文 参考訳(メタデータ) (2021-01-01T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。