論文の概要: BERT-based knowledge extraction method of unstructured domain text
- arxiv url: http://arxiv.org/abs/2103.00728v1
- Date: Mon, 1 Mar 2021 03:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 01:48:19.247062
- Title: BERT-based knowledge extraction method of unstructured domain text
- Title(参考訳): BERTを用いた非構造化ドメインテキストの知識抽出法
- Authors: Wang Zijia, Li Ye, Zhu Zhongkai
- Abstract要約: 本論文ではBERTに基づく知識抽出手法を提案する。
ドメインの知識ポイントを質問と回答のペアに変換し、文書の回答に関するテキストをコンテキストとして使用する。
より多くの保険条項から知識ポイントを直接抽出するために使用される。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the development and business adoption of knowledge graph, there is an
increasing demand for extracting entities and relations of knowledge graphs
from unstructured domain documents. This makes the automatic knowledge
extraction for domain text quite meaningful. This paper proposes a knowledge
extraction method based on BERT, which is used to extract knowledge points from
unstructured specific domain texts (such as insurance clauses in the insurance
industry) automatically to save manpower of knowledge graph construction.
Different from the commonly used methods which are based on rules, templates or
entity extraction models, this paper converts the domain knowledge points into
question and answer pairs and uses the text around the answer in documents as
the context. The method adopts a BERT-based model similar to BERT's SQuAD
reading comprehension task. The model is fine-tuned. And it is used to directly
extract knowledge points from more insurance clauses. According to the test
results, the model performance is good.
- Abstract(参考訳): 知識グラフの開発とビジネス導入により、非構造化ドメイン文書から知識グラフの実体と関係を抽出する需要が高まっている。
これにより、ドメインテキストの自動知識抽出が極めて意味のあるものになる。
本論文では、非構造化特定ドメインテキスト(保険業界における保険条項など)から知識ポイントを自動的に抽出し、知識グラフ構築のマンパワーを節約するBERTに基づく知識抽出手法を提案する。
ルールやテンプレート,エンティティ抽出モデルに基づく一般的な手法とは違い,本論文では,ドメインの知識ポイントを問合せと解答のペアに変換し,文書の回答に関するテキストを文脈として利用する。
この方法は、BERTのSQuAD読解タスクに似たBERTベースのモデルを採用する。
モデルは微調整されています。
そして、より多くの保険条項から知識ポイントを直接抽出するために使われる。
テスト結果によると、モデルのパフォーマンスは良好である。
関連論文リスト
- Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - FabKG: A Knowledge graph of Manufacturing Science domain utilizing
structured and unconventional unstructured knowledge source [1.2597961235465307]
我々は,商業・教育用両方の実体・関係データに基づく知識グラフを開発する。
学生ノートを活用したKG作成のための新しいクラウドソーシング手法を提案する。
私たちは、すべてのデータソースを使用して、65,000以上のトリプルを含む知識グラフを作成しました。
論文 参考訳(メタデータ) (2022-05-24T02:32:04Z) - TegTok: Augmenting Text Generation via Task-specific and Open-world
Knowledge [83.55215993730326]
本稿では,タスク固有およびオープンワールド知識(TegTok)によるTExt生成の統一化を提案する。
本モデルでは,2種類の知識ソースからの知識エントリを高密度検索により選択し,それぞれ入力エンコーディングと出力デコーディングの段階に注入する。
論文 参考訳(メタデータ) (2022-03-16T10:37:59Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Knowledge Graph Anchored Information-Extraction for Domain-Specific
Insights [1.6308268213252761]
新しいドメイン内で特定の情報ニーズを満たすためにタスクベースのアプローチを使用します。
美術NLP技術の状態を構成したパイプラインを使用して、インスタンスレベルのセマンティック構造を自動的に抽出する。
論文 参考訳(メタデータ) (2021-04-18T19:28:10Z) - KI-BERT: Infusing Knowledge Context for Better Language and Domain
Understanding [0.0]
概念的および曖昧な実体に対する知識グラフから知識コンテキストをトランスフォーマーアーキテクチャに基づくモデルに注入する手法を提案する。
私たちの新しい技術プロジェクト知識グラフは、同質ベクトル空間に埋め込み、エンティティのための新しいトークンタイプ、エンティティの位置IDの整列、および選択的注意メカニズムを導入します。
私たちはBERTをベースラインモデルとし、ConceptNetとWordNetから知識コンテキストを注入して「KnowledgeInfused BERT」を実装します。
論文 参考訳(メタデータ) (2021-04-09T16:15:31Z) - BERTese: Learning to Speak to BERT [50.76152500085082]
本論文では,より良い知識抽出に向けて直接最適化されたパラフレーズクエリ"BERTese"に自動書き換える手法を提案する。
私たちのアプローチが競合するベースラインを上回ることを実証的に示し、複雑なパイプラインの必要性を回避します。
論文 参考訳(メタデータ) (2021-03-09T10:17:22Z) - Understood in Translation, Transformers for Domain Understanding [2.379911867541422]
本稿では,コーパスの領域定義のためのトランスフォーマーに基づく教師あり機械学習手法を提案する。
このようなドメイン構造の自動定義が、生成したグラフの構成時間と品質の両方において有益である理由を論じる。
PubMedから抽出した出版物に基づく新しい健康領域データセットを提案する。
論文 参考訳(メタデータ) (2020-12-18T14:47:47Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。