論文の概要: Symbolic Knowledge Distillation: from General Language Models to
Commonsense Models
- arxiv url: http://arxiv.org/abs/2110.07178v1
- Date: Thu, 14 Oct 2021 06:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 04:23:38.895815
- Title: Symbolic Knowledge Distillation: from General Language Models to
Commonsense Models
- Title(参考訳): 記号的知識蒸留 : 一般言語モデルから常識モデルへ
- Authors: Peter West, Chandra Bhagavatula, Jack Hessel, Jena D. Hwang, Liwei
Jiang, Ronan Le Bras, Ximing Lu, Sean Welleck, Yejin Choi
- Abstract要約: 一般的な言語モデルは、コモンセンスモデルを訓練するための知識グラフを作成できる。
ニューラルモデルに加えて、記号的にテキストとして知識を蒸留する。
人間が作成したコモンセンス知識グラフが、私たちの自動蒸留変種に取って代わられるのは初めてです。
- 参考スコア(独自算出の注目度): 38.29726383331247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The common practice for training commonsense models has gone
from-human-to-corpus-to-machine: humans author commonsense knowledge graphs in
order to train commonsense models. In this work, we investigate an alternative,
from-machine-to-corpus-to-machine: general language models author these
commonsense knowledge graphs to train commonsense models. Our study leads to a
new framework, Symbolic Knowledge Distillation. As with prior art in Knowledge
Distillation (Hinton et al., 2015), our approach uses larger models to teach
smaller models. A key difference is that we distill knowledge symbolically-as
text-in addition to the neural model. We also distill only one aspect-the
commonsense of a general language model teacher, allowing the student to be a
different type, a commonsense model. Altogether, we show that careful prompt
engineering and a separately trained critic model allow us to selectively
distill high-quality causal commonsense from GPT-3, a general language model.
Empirical results demonstrate that, for the first time, a human-authored
commonsense knowledge graph is surpassed by our automatically distilled variant
in all three criteria: quantity, quality, and diversity. In addition, it
results in a neural commonsense model that surpasses the teacher model's
commonsense capabilities despite its 100x smaller size. We apply this to the
ATOMIC resource, and share our new symbolic knowledge graph and commonsense
models.
- Abstract(参考訳): コモンセンスモデルのトレーニングの一般的な実践は、コモンセンスモデルをトレーニングするためにコモンセンス知識グラフを作成する人間から体から機械へと移行した。
本研究では,汎用言語モデルから汎用言語モデルへの代替として,コモンセンスモデルを学習するためのコモンセンス知識グラフを作成する。
本研究はシンボリック・ナレッジ蒸留という新しい枠組みを導く。
知識蒸留の先行技術 (Hinton et al., 2015) と同様に、我々のアプローチはより大きなモデルを使ってより小さなモデルを教える。
重要な違いは、神経モデルに加え、テキストとして知識を象徴的に蒸留することです。
また,一般言語モデル教師の共通性という側面のみを抽出し,生徒を共通性モデルという別の型にすることを可能にした。
また、注意深いプロンプトエンジニアリングと個別に訓練された批評家モデルにより、汎用言語モデルであるGPT-3から高品質な因果コモンセンスを選択的に蒸留できることを示す。
実証実験の結果、人間によって書かれたコモンセンス知識グラフは、量、品質、多様性の3つの基準において、我々の自動蒸留変種に取って代わられた。
さらに、100倍のサイズのにもかかわらず、教師モデルのコモンセンス能力を上回る神経コモンセンスモデルが得られる。
我々はこれをATOMICリソースに適用し、新しいシンボリック知識グラフとコモンセンスモデルを共有する。
関連論文リスト
- NovaCOMET: Open Commonsense Foundation Models with Symbolic Knowledge
Distillation [82.85412355714898]
オープン・コモンセンス・ナレッジ・モデルであるNovaCOMETを,知識の最良の側面と一般的なタスク・モデルを組み合わせたオープン・コモンセンス・ナレッジ・モデルとして紹介する。
従来の知識モデルと比較して、NovaCOMETは推論タスクへの直接適用を可能にするオープンフォーマット関係を可能にする。
知識を明示的に重視し、コモンセンス推論の優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-10T19:45:24Z) - PHALM: Building a Knowledge Graph from Scratch by Prompting Humans and a
Language Model [15.148567298728574]
本稿では,知識グラフをゼロから構築する手法であるPHALMを提案する。
この手法を用いて、日本語イベント知識グラフを構築し、日本語コモンセンス生成モデルを訓練した。
論文 参考訳(メタデータ) (2023-10-11T03:39:46Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Improving Neural Topic Models with Wasserstein Knowledge Distillation [0.8962460460173959]
本稿では,トピックの品質を損なうことなく,文脈化されたトピックモデルを圧縮する知識蒸留フレームワークを提案する。
実験により, 知識蒸留の訓練を受けた学生は, 本来の学生モデルよりも, トピックコヒーレンスをはるかに高い精度で達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-27T16:07:44Z) - I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation [89.38161262164586]
本稿では,ジェネリック生成の課題に着目し,コモンセンス知識の生成モデルについて検討する。
我々は,西欧の記号的知識蒸留を緩やかに追従する新しいコモンセンス蒸留フレームワークであるI2D2を紹介する。
我々の研究はジェネリックの新たなコーパス、Gen-A-tomicに繋がる。
論文 参考訳(メタデータ) (2022-12-19T04:47:49Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Generated Knowledge Prompting for Commonsense Reasoning [53.88983683513114]
本稿では,汎用的なプロンプト形式を用いて,言語モデルから直接知識文を生成することを提案する。
このアプローチは、4つのコモンセンス推論タスクにおいて、既製の言語モデルと微調整された言語モデルの両方のパフォーマンスを向上させる。
特に、モデルが生成した知識を使用することで、予測が改善できることが分かる。
論文 参考訳(メタデータ) (2021-10-15T21:58:03Z) - A Metamodel and Framework for Artificial General Intelligence From
Theory to Practice [11.756425327193426]
本稿では,自律学習と適応性を大幅に向上させるメタモデルに基づく知識表現を提案する。
我々は,時系列解析,コンピュータビジョン,自然言語理解といった問題にメタモデルを適用した。
メタモデルの驚くべき結果のひとつは、新たなレベルの自律的な学習と、マシンインテリジェンスのための最適な機能を可能にするだけでなく、それを可能にすることだ。
論文 参考訳(メタデータ) (2021-02-11T16:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。