論文の概要: I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation
- arxiv url: http://arxiv.org/abs/2212.09246v3
- Date: Fri, 26 May 2023 17:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:00:55.424913
- Title: I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation
- Title(参考訳): I2D2:神経論理と自己刺激による誘導的知識蒸留
- Authors: Chandra Bhagavatula, Jena D. Hwang, Doug Downey, Ronan Le Bras, Ximing
Lu, Lianhui Qin, Keisuke Sakaguchi, Swabha Swayamdipta, Peter West, Yejin
Choi
- Abstract要約: 本稿では,ジェネリック生成の課題に着目し,コモンセンス知識の生成モデルについて検討する。
我々は,西欧の記号的知識蒸留を緩やかに追従する新しいコモンセンス蒸留フレームワークであるI2D2を紹介する。
我々の研究はジェネリックの新たなコーパス、Gen-A-tomicに繋がる。
- 参考スコア(独自算出の注目度): 89.38161262164586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense capabilities of pre-trained language models dramatically improve
with scale, leading many to believe that scale is the only winning recipe. But
is it? Here, we investigate an alternative that a priori seems impossible: can
smaller language models (e.g., GPT-2) win over models that are orders of
magnitude larger and better (e.g., GPT-3), if powered with novel commonsense
distillation algorithms? The key intellectual challenge is to design a learning
algorithm that achieve a competitive level of commonsense acquisition, without
relying on the benefits of scale. In particular, we study generative models of
commonsense knowledge, focusing on the task of generating generics, statements
of commonsense facts about everyday concepts, e.g., birds can fly.
We introduce I2D2, a novel commonsense distillation framework that loosely
follows the Symbolic Knowledge Distillation of West et al. but breaks the
dependence on the extreme-scale teacher model with two innovations: (1) the
novel adaptation of NeuroLogic Decoding to enhance the generation quality of
the weak, off-the-shelf language models, and (2) self-imitation learning to
iteratively learn from the model's own enhanced commonsense acquisition
capabilities. Empirical results suggest that scale is not the only way, as
novel algorithms can be a promising alternative. Moreover, our study leads to a
new corpus of generics, Gen-A-tomic, that is the largest and highest quality
available to date.
- Abstract(参考訳): 事前訓練された言語モデルの常識的能力は、スケールによって劇的に向上し、スケールが唯一の勝利レシピであると多くの人が信じている。
しかし、それは?
より小さな言語モデル(例: GPT-2)が、新しいコモンセンス蒸留アルゴリズムを駆使すれば、桁違いに大きいモデル(例: GPT-3)に勝てるのか?
重要な知的課題は、スケールの利点に頼ることなく、競争レベルのコモンセンス獲得を達成する学習アルゴリズムを設計することである。
特に,コモンセンス知識の生成モデルについて検討し,ジェネリクス生成の課題,鳥類が飛べるような日常概念に関するコモンセンス事実のステートメントに着目した。
I2D2は、西欧のシンボリック知識蒸留を緩やかに追従する新しいコモンセンス蒸留フレームワークであるが、2つの革新によって極規模の教師モデルへの依存を断ち切る。(1)弱い、既製の言語モデルの生成品質を高めるための神経論理復号の新しい適応、(2)モデルの強化されたコモンセンス獲得能力から反復的に学習するための自己シミュレーション学習である。
実験的な結果は、新しいアルゴリズムが有望な代替手段となるため、スケールが唯一の方法ではないことを示唆している。
さらに本研究では,これまでで最大かつ最高品質のジェネリックコーパスであるGen-A-tomicについて検討した。
関連論文リスト
- BSDP: Brain-inspired Streaming Dual-level Perturbations for Online Open
World Object Detection [31.467501311528498]
私たちは、深層学習モデルを、人々の学習方法をシミュレートすることを目指しています。
既存のOWODアプローチは未知のカテゴリの同定に注意を払う一方で、漸進的な学習も非常に重要である。
本稿では,古い知識を忘れることなく,新しい知識を学習しやすくするために,古いサンプルの二重レベル情報を新しいサンプルの摂動として捉えた。
論文 参考訳(メタデータ) (2024-03-05T04:00:50Z) - Class incremental learning with probability dampening and cascaded gated classifier [4.285597067389559]
本稿では, Margin Dampening と Cascaded Scaling という新たな漸進正規化手法を提案する。
1つ目は、ソフト制約と知識蒸留のアプローチを組み合わせて、過去の知識を保存し、新しいパターンを忘れることを可能にします。
提案手法は,複数のベンチマークにおいて,確立されたベースラインで良好に動作することを示す。
論文 参考訳(メタデータ) (2024-02-02T09:33:07Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - Symbolic Knowledge Distillation: from General Language Models to
Commonsense Models [38.29726383331247]
一般的な言語モデルは、コモンセンスモデルを訓練するための知識グラフを作成できる。
ニューラルモデルに加えて、記号的にテキストとして知識を蒸留する。
人間が作成したコモンセンス知識グラフが、私たちの自動蒸留変種に取って代わられるのは初めてです。
論文 参考訳(メタデータ) (2021-10-14T06:50:19Z) - DISCOS: Bridging the Gap between Discourse Knowledge and Commonsense
Knowledge [42.08569149041291]
代替コモンセンス知識獲得フレームワーク DISCOS を提案します。
DISCOSは高価なコモンセンス知識をより手頃な言語知識資源に投入する。
我々は,ASERの中核部にATOMICを投入することにより,3.4M ATOMICライクな推論コモンセンス知識を得ることができる。
論文 参考訳(メタデータ) (2021-01-01T03:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。