論文の概要: Zero-Shot Open Information Extraction using Question Generation and
Reading Comprehension
- arxiv url: http://arxiv.org/abs/2109.08079v1
- Date: Thu, 16 Sep 2021 16:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:08:22.899283
- Title: Zero-Shot Open Information Extraction using Question Generation and
Reading Comprehension
- Title(参考訳): 質問生成と読解理解を用いたゼロショットオープン情報抽出
- Authors: Himanshu Gupta, Amogh Badugu, Tamanna Agrawal, Himanshu Sharad Bhatt
- Abstract要約: 本稿では,文からエンティティ(値)とその記述(キー)を抽出するゼロショットオープン情報抽出手法を提案する。
また、米国証券取引委員会(SEC)に上場している企業の公開財務書類に基づくEDGAR10-Qデータセットも紹介した。
- 参考スコア(独自算出の注目度): 4.060951302219144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Typically, Open Information Extraction (OpenIE) focuses on extracting
triples, representing a subject, a relation, and the object of the relation.
However, most of the existing techniques are based on a predefined set of
relations in each domain which limits their applicability to newer domains
where these relations may be unknown such as financial documents. This paper
presents a zero-shot open information extraction technique that extracts the
entities (value) and their descriptions (key) from a sentence, using off the
shelf machine reading comprehension (MRC) Model. The input questions to this
model are created using a novel noun phrase generation method. This method
takes the context of the sentence into account and can create a wide variety of
questions making our technique domain independent. Given the questions and the
sentence, our technique uses the MRC model to extract entities (value). The
noun phrase corresponding to the question, with the highest confidence, is
taken as the description (key).
This paper also introduces the EDGAR10-Q dataset which is based on publicly
available financial documents from corporations listed in US securities and
exchange commission (SEC). The dataset consists of paragraphs, tagged values
(entities), and their keys (descriptions) and is one of the largest among
entity extraction datasets. This dataset will be a valuable addition to the
research community, especially in the financial domain. Finally, the paper
demonstrates the efficacy of the proposed technique on the EDGAR10-Q and Ade
corpus drug dosage datasets, where it obtained 86.84 % and 97% accuracy,
respectively.
- Abstract(参考訳): 一般に、オープン情報抽出(openie)は、主題、関係、および関係の対象を表す三重項の抽出に焦点を当てている。
しかし、既存の技術のほとんどは、これらの関係が不明な新しい領域(例えば財務文書など)に適用性を制限する、各ドメインの事前定義された関係に基づいている。
本稿では,mrcモデルを用いて文からエンティティ(値)とその記述(キー)を抽出するゼロショットオープン情報抽出手法を提案する。
このモデルに対する入力質問は、新しい名詞句生成法を用いて作成される。
本手法は文の文脈を考慮に入れ、我々の技術領域を独立にするための様々な質問を作成できる。
質問や文が与えられた場合,本手法はMCCモデルを用いてエンティティ(値)を抽出する。
疑問に対応する名詞句は、最も信頼度が高いもので、その記述(キー)として扱われる。
本稿では,米国証券取引委員会(SEC)に上場している企業からの公開財務文書に基づくEDGAR10-Qデータセットについても紹介する。
データセットは、段落、タグ付き値(エンティティ)、キー(記述)で構成され、エンティティ抽出データセットの中でも最大である。
このデータセットは、特に金融分野において、研究コミュニティに貴重な追加となるでしょう。
最後に,EDGAR10-QとAde corpusの薬物服用データセットに対する提案手法の有効性を示し,86.84 %,97%の精度を得た。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Information Extraction: An application to the domain of hyper-local financial data on developing countries [0.0]
この問題に対処する2つの自然言語処理技術(NLP)を開発し評価する。
まず、発展途上国の財務テキストデータのドメインに特有のカスタムデータセットをキュレートする。
次に,変換器をベースとしたT5モデルを用いてテキストからテキストへのアプローチを探索し,NERと関係抽出を同時に行うことを目的とする。
論文 参考訳(メタデータ) (2024-03-14T03:49:36Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Evaluating Generative Models for Graph-to-Text Generation [0.0]
ゼロショット設定でグラフデータから記述テキストを生成するための生成モデルの能力について検討する。
この結果から, 生成モデルにより, 流動的で一貫性のあるテキストを生成できることが示唆された。
しかし, 誤り解析の結果, 生成モデルは実体間の意味的関係の理解に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-07-27T09:03:05Z) - SEntFiN 1.0: Entity-Aware Sentiment Analysis for Financial News [0.03018439717785794]
SentFiN 1.0は10,753のニュースヘッドラインとエンティティ・センチメント・アノテーションを備えた人為的注釈付きデータセットです。
本稿では,表現に基づくアプローチではなく,特徴に基づくアプローチを用いて,エンティティ関連感情の抽出を可能にするフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-20T18:20:39Z) - Larger Probes Tell a Different Story: Extending Psycholinguistic
Datasets Via In-Context Learning [14.606961537327345]
我々は、精神言語学研究に触発された否定と役割逆転のための、より大規模なデータセットを導入する。
GPT3 を用いて既存の NEG-136 と ROLE-88 ベンチマークを劇的に拡張し,それぞれ 18 と 44 の文対から 750 にサイズを拡大した。
拡張データセット上で22のモデルを評価し、オリジナルのより小さなベンチマークと比較すると、モデル性能は20~57%低下した。
論文 参考訳(メタデータ) (2023-03-29T04:00:53Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - HaT5: Hate Language Identification using Text-to-Text Transfer
Transformer [1.2532400738980594]
比較的多様な2つのデータセットから5つのタスクにまたがる最先端技術(SoTA)アーキテクチャT5の性能について検討する。
性能向上のために,自己回帰モデルを用いてトレーニングデータを増強する。
サンプルの小さなセットを使用することで、データアノテーションが貧弱であることの難しさを明らかにします。
論文 参考訳(メタデータ) (2022-02-11T15:21:27Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。