論文の概要: Distantly Supervised Morpho-Syntactic Model for Relation Extraction
- arxiv url: http://arxiv.org/abs/2401.10002v1
- Date: Thu, 18 Jan 2024 14:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:23:26.081885
- Title: Distantly Supervised Morpho-Syntactic Model for Relation Extraction
- Title(参考訳): 関係抽出のための遠隔監視型モーフォシンタクティックモデル
- Authors: Nicolas Gutehrl\'e, Iana Atanassova
- Abstract要約: テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.27195102129094995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of Information Extraction (IE) involves automatically converting
unstructured textual content into structured data. Most research in this field
concentrates on extracting all facts or a specific set of relationships from
documents. In this paper, we present a method for the extraction and
categorisation of an unrestricted set of relationships from text. Our method
relies on morpho-syntactic extraction patterns obtained by a distant
supervision method, and creates Syntactic and Semantic Indices to extract and
classify candidate graphs. We evaluate our approach on six datasets built on
Wikidata and Wikipedia. The evaluation shows that our approach can achieve
Precision scores of up to 0.85, but with lower Recall and F1 scores. Our
approach allows to quickly create rule-based systems for Information Extraction
and to build annotated datasets to train machine-learning and deep-learning
based classifiers.
- Abstract(参考訳): 情報抽出タスク(ie)では、構造化されていないテキストコンテンツを自動的に構造化データに変換する。
この分野のほとんどの研究は、文書からすべての事実や特定の関係を抽出することに集中している。
本稿では,テキストから制約のない関係の抽出と分類を行う手法を提案する。
本手法は,遠隔指導法によって得られた形態素合成抽出パターンに基づき,候補グラフを抽出・分類するための構文的・意味的指標を作成する。
WikidataとWikipedia上に構築された6つのデータセットに対するアプローチを評価する。
評価の結果,提案手法の精度は最大0.85まで向上するが,リコールとF1は低かった。
本手法は、情報抽出のためのルールベースのシステムを簡単に作成し、機械学習およびディープラーニングベースの分類器を訓練するための注釈付きデータセットを構築することを可能にする。
関連論文リスト
- FabricQA-Extractor: A Question Answering System to Extract Information from Documents using Natural Language Questions [4.961045761391367]
可読性モデルを読み取ると、短いテキストを渡せば自然言語で表される質問に答える。
本稿では,リレーショナル構造に関する知識を活用して抽出品質を向上させるリレーショナルコヒーレンス(Relation Coherence)というモデルを提案する。
リレーショナルコヒーレンスによって抽出性能が向上し,大規模データセット上でFabricQA-Extractorが評価されることを示す。
論文 参考訳(メタデータ) (2024-08-17T15:16:54Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Schema-aware Reference as Prompt Improves Data-Efficient Knowledge Graph
Construction [57.854498238624366]
本稿では,データ効率のよい知識グラフ構築のためのRAP(Schema-Aware Reference As Prompt)の検索手法を提案する。
RAPは、人間の注釈付きおよび弱教師付きデータから受け継いだスキーマと知識を、各サンプルのプロンプトとして動的に活用することができる。
論文 参考訳(メタデータ) (2022-10-19T16:40:28Z) - AIFB-WebScience at SemEval-2022 Task 12: Relation Extraction First --
Using Relation Extraction to Identify Entities [0.0]
本稿では,変換器に基づく言語モデルに基づくエンドツーエンドのジョイントエンティティと関係抽出手法を提案する。
実体抽出と関係抽出を連続的に行う既存手法とは対照的に,本システムは関係抽出からの情報を実体抽出に組み込む。
論文 参考訳(メタデータ) (2022-03-10T12:19:44Z) - Integrating Semantics and Neighborhood Information with Graph-Driven
Generative Models for Document Retrieval [51.823187647843945]
本稿では,周辺情報をグラフ誘導ガウス分布でエンコードし,その2種類の情報をグラフ駆動生成モデルと統合することを提案する。
この近似の下では、トレーニング対象がシングルトンまたはペアワイズ文書のみを含む用語に分解可能であることを証明し、モデルが非関連文書と同じくらい効率的にトレーニングできることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:29:03Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。