論文の概要: Instilling Type Knowledge in Language Models via Multi-Task QA
- arxiv url: http://arxiv.org/abs/2204.13796v1
- Date: Thu, 28 Apr 2022 22:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 06:39:09.634613
- Title: Instilling Type Knowledge in Language Models via Multi-Task QA
- Title(参考訳): マルチタスクQAによる言語モデルにおける型知識の注入
- Authors: Shuyang Li, Mukund Sridhar, Chandana Satya Prakash, Jin Cao, Wael
Hamza, Julian McAuley
- Abstract要約: タイプ中心の質問に対して,テキストからテキストへの事前学習を施した言語モデルに,きめ細かな型知識を注入する手法を提案する。
ウィキデータナレッジグラフにリンクされた100万のウィキペディア記事のエンティティとエントリを41Kタイプで作成する。
WikiWikiでトレーニングされたモデルは、ゼロショットダイアログ状態追跡ベンチマークで最先端のパフォーマンスを実現し、ウィキペディアの記事のエンティティタイプを正確に推測し、人間の裁判官が有用なと考えられる新しいタイプを発見できる。
- 参考スコア(独自算出の注目度): 13.244420493711981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding human language often necessitates understanding entities and
their place in a taxonomy of knowledge -- their types. Previous methods to
learn entity types rely on training classifiers on datasets with coarse, noisy,
and incomplete labels. We introduce a method to instill fine-grained type
knowledge in language models with text-to-text pre-training on type-centric
questions leveraging knowledge base documents and knowledge graphs. We create
the WikiWiki dataset: entities and passages from 10M Wikipedia articles linked
to the Wikidata knowledge graph with 41K types. Models trained on WikiWiki
achieve state-of-the-art performance in zero-shot dialog state tracking
benchmarks, accurately infer entity types in Wikipedia articles, and can
discover new types deemed useful by human judges.
- Abstract(参考訳): 人間の言語を理解するには、しばしば知識の分類学における実体とその位置を理解する必要がある。
エンティティタイプを学ぶ以前の方法は、粗末でノイズの多い、不完全なラベルを持つデータセットの分類器のトレーニングに依存している。
本稿では,知識ベース文書と知識グラフを活用した,テキストからテキストへの事前学習による言語モデルにおけるきめ細かい型知識の注入手法を提案する。
Wikidataナレッジグラフにリンクされた100万のWikipedia記事のエンティティとエントリを41Kタイプで作成する。
WikiWikiでトレーニングされたモデルは、ゼロショットダイアログ状態追跡ベンチマークで最先端のパフォーマンスを実現し、ウィキペディアの記事のエンティティタイプを正確に推測し、人間の裁判官が有用なと考えられる新しいタイプを発見できる。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Does Wikidata Support Analogical Reasoning? [17.68704739786042]
Wikidataの知識が類推的推論をサポートするかどうかを検討する。
Wikidataは類似分類のためのデータ作成に利用できることを示す。
我々は、Wikidataからアナログを抽出する自動手法を導くためのメトリクスセットを考案した。
論文 参考訳(メタデータ) (2022-10-02T20:46:52Z) - WikiDes: A Wikipedia-Based Dataset for Generating Short Descriptions
from Paragraphs [66.88232442007062]
ウィキデックスはウィキペディアの記事の短い記述を生成するデータセットである。
データセットは、6987のトピックに関する80万以上の英語サンプルで構成されている。
本論文は,ウィキペディアとウィキデータに多くの記述が欠落していることから,実際的な影響を示すものである。
論文 参考訳(メタデータ) (2022-09-27T01:28:02Z) - SKILL: Structured Knowledge Infusion for Large Language Models [46.34209061364282]
構造化知識を大規模言語モデル(LLM)に注入する手法を提案する。
Wikidata KGで事前学習したモデルは,FreebaseQAとWikiHopのT5ベースラインよりも優れていることを示す。
また,T5ベースラインと比較して,MetaQAタスクの正確なマッチスコアが3倍向上した。
論文 参考訳(メタデータ) (2022-05-17T09:12:22Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z) - Crosslingual Topic Modeling with WikiPDA [15.198979978589476]
ウィキペディアベースのポリグロット・ディリクレ・アロケーション(WikiPDA)について紹介する。
あらゆる言語で書かれたウィキペディアの記事を、共通の言語に依存しないトピックの集合上の分布として表現することを学ぶ。
28のウィキペディア版における話題バイアスの研究と言語横断的分類の2つのアプリケーションでその実用性を示す。
論文 参考訳(メタデータ) (2020-09-23T15:19:27Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Learning Cross-Context Entity Representations from Text [9.981223356176496]
本稿では,テキストコンテキストからエンティティのコンテキスト独立表現を学習するための補間タスクの利用について検討する。
ニューラルネットワークの大規模トレーニングによって,高品質な実体表現を学習できることが示される。
我々のグローバルな実体表現は、スコットランドのサッカー選手のようなきめ細かい型カテゴリをエンコードし、トリビアの質問に答えることができます。
論文 参考訳(メタデータ) (2020-01-11T15:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。