論文の概要: Leveraging Linguistically Enhanced Embeddings for Open Information Extraction
- arxiv url: http://arxiv.org/abs/2403.13903v1
- Date: Wed, 20 Mar 2024 18:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 18:09:15.013489
- Title: Leveraging Linguistically Enhanced Embeddings for Open Information Extraction
- Title(参考訳): オープン情報抽出のための言語的に強化された埋め込みの活用
- Authors: Fauzan Farooqui, Thanmay Jayakumar, Pulkit Mathur, Mansi Radke,
- Abstract要約: オープン情報抽出(OIE)は自然言語処理における構造化予測タスクである
私たちは、OIE用のSeq2Seq PLMで言語機能を利用する最初の人です。
私たちの作業は、任意のニューラルなOIEアーキテクチャに対して、PLMと言語機能の両方から重要なパフォーマンス向上を提供することができます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open Information Extraction (OIE) is a structured prediction (SP) task in Natural Language Processing (NLP) that aims to extract structured $n$-ary tuples - usually subject-relation-object triples - from free text. The word embeddings in the input text can be enhanced with linguistic features, usually Part-of-Speech (PoS) and Syntactic Dependency Parse (SynDP) labels. However, past enhancement techniques cannot leverage the power of pretrained language models (PLMs), which themselves have been hardly used for OIE. To bridge this gap, we are the first to leverage linguistic features with a Seq2Seq PLM for OIE. We do so by introducing two methods - Weighted Addition and Linearized Concatenation. Our work can give any neural OIE architecture the key performance boost from both PLMs and linguistic features in one go. In our settings, this shows wide improvements of up to 24.9%, 27.3% and 14.9% on Precision, Recall and F1 scores respectively over the baseline. Beyond this, we address other important challenges in the field: to reduce compute overheads with the features, we are the first ones to exploit Semantic Dependency Parse (SemDP) tags; to address flaws in current datasets, we create a clean synthetic dataset; finally, we contribute the first known study of OIE behaviour in SP models.
- Abstract(参考訳): Open Information extract (OIE) は、自然言語処理(NLP)における構造化予測(SP)タスクであり、自由テキストから構造化された$n$-ary tuple(通常、主題関係オブジェクトのトリプル)を抽出することを目的としている。
入力テキストへの単語の埋め込みは言語的特徴(通常はPart-of-Speech (PoS) と Syntactic Dependency Parse (SynDP) ラベル)で拡張することができる。
しかし,従来の拡張技術では,OIEにはほとんど使われていない事前学習言語モデル(PLM)のパワーを活用できない。
このギャップを埋めるために、私たちは初めて、OIE用のSeq2Seq PLMで言語機能を活用しました。
私たちは、重み付け加算と線形化結合という2つの方法を導入します。
私たちの作業は、任意のニューラルなOIEアーキテクチャに対して、PLMと言語機能の両方から重要なパフォーマンス向上を提供することができます。
私たちの設定では、ベースライン上での精度、リコール、F1スコアの最大24.9%、27.3%、14.9%の改善が示されています。
機能による計算オーバーヘッドを削減するには、Semantic Dependency Parse(SemDP)タグを最初に利用し、現在のデータセットの欠陥に対処するため、クリーンな合成データセットを作成します。
関連論文リスト
- Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - Leveraging Code to Improve In-context Learning for Semantic Parsing [48.66031267718704]
In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により、意味解析に魅力的なアプローチである。
我々は,(1)DSLの代わりにPythonなどの汎用プログラミング言語を用いた意味解析におけるICLの有効性を向上し,(2)ドメイン記述を構造化したプロンプトを増強する。
論文 参考訳(メタデータ) (2023-11-16T02:50:06Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - DetIE: Multilingual Open Information Extraction Inspired by Object
Detection [10.269858179091111]
コンピュータビジョンからオブジェクト検出アルゴリズムにインスパイアされたOpenIEのための新しいシングルパス方式を提案する。
マルチリンガルなRe-OIE2016では、パフォーマンス改善が15%向上し、ポルトガル語とスペイン語の両方で75%のF1に達した。
論文 参考訳(メタデータ) (2022-06-24T23:47:00Z) - Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - The DCU-EPFL Enhanced Dependency Parser at the IWPT 2021 Shared Task [19.98425994656106]
We describe the multitask-EPFL submit to the IWPT 2021 Shared Task on Parsing into Enhanced Universal Dependencies。
このタスクは、セマンティック構造を表現するためにより円滑に設計された基本依存性ツリーの拡張である拡張グラフのパースを含む。
評価は17言語29のツリーバンクで行われ、参加者は生文字列から始まる各言語からデータを解析する必要がある。
論文 参考訳(メタデータ) (2021-07-05T12:42:59Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。