論文の概要: NovaCOMET: Open Commonsense Foundation Models with Symbolic Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2312.05979v1
- Date: Sun, 10 Dec 2023 19:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:41:01.255029
- Title: NovaCOMET: Open Commonsense Foundation Models with Symbolic Knowledge
Distillation
- Title(参考訳): novacomet: シンボリック知識蒸留を伴うオープンコモンセンス基礎モデル
- Authors: Peter West, Ronan Le Bras, Taylor Sorensen, Bill Yuchen Lin, Liwei
Jiang, Ximing Lu, Khyathi Chandu, Jack Hessel, Ashutosh Baheti, Chandra
Bhagavatula, Yejin Choi
- Abstract要約: オープン・コモンセンス・ナレッジ・モデルであるNovaCOMETを,知識の最良の側面と一般的なタスク・モデルを組み合わせたオープン・コモンセンス・ナレッジ・モデルとして紹介する。
従来の知識モデルと比較して、NovaCOMETは推論タスクへの直接適用を可能にするオープンフォーマット関係を可能にする。
知識を明示的に重視し、コモンセンス推論の優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 82.85412355714898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present NovaCOMET, an open commonsense knowledge model, that combines the
best aspects of knowledge and general task models. Compared to previous
knowledge models, NovaCOMET allows open-format relations enabling direct
application to reasoning tasks; compared to general task models like Flan-T5,
it explicitly centers knowledge, enabling superior performance for commonsense
reasoning.
NovaCOMET leverages the knowledge of opaque proprietary models to create an
open knowledge pipeline. First, knowledge is symbolically distilled into
NovATOMIC, a publicly-released discrete knowledge graph which can be audited,
critiqued, and filtered. Next, we train NovaCOMET on NovATOMIC by fine-tuning
an open-source pretrained model. NovaCOMET uses an open-format training
objective, replacing the fixed relation sets of past knowledge models, enabling
arbitrary structures within the data to serve as inputs or outputs.
The resulting generation model, optionally augmented with human annotation,
matches or exceeds comparable open task models like Flan-T5 on a range of
commonsense generation tasks. NovaCOMET serves as a counterexample to the
contemporary focus on instruction tuning only, demonstrating a distinct
advantage to explicitly modeling commonsense knowledge as well.
- Abstract(参考訳): novacometはオープン・コモンセンス・ナレッジ・モデルで、知識と一般的なタスク・モデルの最良の側面を組み合わせたものです。
従来の知識モデルと比較すると、NovaCOMETは推論タスクへの直接適用を可能にするオープンフォーマットのリレーションシップを可能にしており、Flan-T5のような一般的なタスクモデルと比較して、知識を明示的に中心とし、常識推論の優れたパフォーマンスを実現する。
NovaCOMETは、不透明なプロプライエタリモデルの知識を活用して、オープンな知識パイプラインを作成する。
第一に、知識は象徴的にNovATOMICに蒸留され、これは、監査、批判、フィルタリングが可能な公開リリースの個別知識グラフである。
次に、NovaCOMETをNovATOMIC上で訓練し、オープンソースの事前学習モデルを微調整する。
NovaCOMETはオープンフォーマットのトレーニング目標を使用して、過去の知識モデルの固定された関係セットを置き換えることで、データ内の任意の構造が入力や出力として機能できるようにする。
生成された生成モデルは、オプションで人間のアノテーションで拡張され、さまざまなコモンセンス生成タスクでFlan-T5のようなオープンタスクモデルと一致するか、超える。
NovaCOMETは、命令チューニングのみに焦点を合わせ、コモンセンス知識を明示的にモデル化する上で、明確な利点を示す。
関連論文リスト
- On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models [7.062887337934677]
我々は、小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
事前訓練されたモデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成される性能を達成または超えることが観察された。
論文 参考訳(メタデータ) (2024-04-04T07:38:11Z) - Class-relation Knowledge Distillation for Novel Class Discovery [16.461242381109276]
主な課題は、既知のクラスデータの知識を新しいクラスの学習に転送することである。
本稿では,既知のクラスに基づいて学習したモデルの予測クラス分布に基づいて,新しいクラスに対するクラス関係表現を提案する。
本稿では,クラス関係表現を利用して新しいクラスの学習を規則化する新しい知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T11:35:57Z) - Plug-and-Play Knowledge Injection for Pre-trained Language Models [116.37916535076478]
外部知識を注入することで、様々な下流NLPタスクにおける事前学習言語モデル(PLM)の性能を向上させることができる。
下流タスクのための新しい知識注入方法や知識ベースを展開するには、大規模な再訓練が必要である。
既存の下流モデルを用いて知識注入の柔軟性と効率を改善する方法について検討する。
論文 参考訳(メタデータ) (2023-05-28T10:58:00Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Kformer: Knowledge Injection in Transformer Feed-Forward Layers [107.71576133833148]
そこで我々は,Transformerのフィードフォワード層を通じて外部知識を組み込んだ新しい知識融合モデルKformerを提案する。
FFNに単に知識を注入するだけで、事前学習された言語モデルの能力が向上し、現在の知識融合法が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-01-15T03:00:27Z) - Towards a Universal Continuous Knowledge Base [49.95342223987143]
複数のニューラルネットワークからインポートされた知識を格納できる継続的知識基盤を構築する方法を提案する。
テキスト分類実験は有望な結果を示す。
我々は複数のモデルから知識ベースに知識をインポートし、そこから融合した知識を単一のモデルにエクスポートする。
論文 参考訳(メタデータ) (2020-12-25T12:27:44Z) - Generative Adversarial Zero-Shot Relational Learning for Knowledge
Graphs [96.73259297063619]
我々は、この厄介なキュレーションを解放するために、新しい定式化、ゼロショット学習を考える。
新たに追加された関係について,テキスト記述から意味的特徴を学習しようと試みる。
我々は,GAN(Generative Adrial Networks)を活用し,テキストと知識グラフ領域の接続を確立する。
論文 参考訳(メタデータ) (2020-01-08T01:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。