論文の概要: Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through
Text Reconstruction
- arxiv url: http://arxiv.org/abs/2401.10189v1
- Date: Thu, 18 Jan 2024 18:20:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:35:56.579334
- Title: Chem-FINESE: Validating Fine-Grained Few-shot Entity Extraction through
Text Reconstruction
- Title(参考訳): Chem-FINESE:テキスト再構成によるファインショット要素抽出の検証
- Authors: Qingyun Wang, Zixuan Zhang, Hongxiang Li, Xuan Liu, Jiawei Han, Heng
Ji, Huimin Zhao
- Abstract要約: 化学領域における微粒な数発の実体抽出は、2つの固有の課題に直面している。
Chem-FINESEには、Seq2seqエンティティ抽出器とSeq2seq自己検証モジュールの2つのコンポーネントがある。
新たに提案したフレームワークは,それぞれ8.26%,6.84%の絶対F1スコアゲインに寄与している。
- 参考スコア(独自算出の注目度): 72.2129426262574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained few-shot entity extraction in the chemical domain faces two
unique challenges. First, compared with entity extraction tasks in the general
domain, sentences from chemical papers usually contain more entities. Moreover,
entity extraction models usually have difficulty extracting entities of
long-tailed types. In this paper, we propose Chem-FINESE, a novel
sequence-to-sequence (seq2seq) based few-shot entity extraction approach, to
address these two challenges. Our Chem-FINESE has two components: a seq2seq
entity extractor to extract named entities from the input sentence and a
seq2seq self-validation module to reconstruct the original input sentence from
extracted entities. Inspired by the fact that a good entity extraction system
needs to extract entities faithfully, our new self-validation module leverages
entity extraction results to reconstruct the original input sentence. Besides,
we design a new contrastive loss to reduce excessive copying during the
extraction process. Finally, we release ChemNER+, a new fine-grained chemical
entity extraction dataset that is annotated by domain experts with the ChemNER
schema. Experiments in few-shot settings with both ChemNER+ and CHEMET datasets
show that our newly proposed framework has contributed up to 8.26% and 6.84%
absolute F1-score gains respectively.
- Abstract(参考訳): 化学領域における粒度の少ないエンティティ抽出には、2つのユニークな課題がある。
第一に、一般ドメインのエンティティ抽出タスクと比較して、化学論文からの文は、通常より多くのエンティティを含んでいる。
さらに、エンティティ抽出モデルは通常、長い尾型のエンティティを抽出することが困難である。
本稿では,これら2つの課題に対処するために,シークエンス・ツー・シーケンス(seq2seq)をベースとした複数ショットエンティティ抽出手法であるChem-FINESEを提案する。
本発明のchem-fineseは、入力文から名前付きエンティティを抽出するseq2seqエンティティ抽出器と、抽出されたエンティティから元の入力文を再構築するseq2seq自己評価モジュールである。
優れたエンティティ抽出システムがエンティティを忠実に抽出する必要があるという事実に触発されて、新しい自己検証モジュールはエンティティ抽出結果を活用して元の入力文を再構築する。
さらに, 抽出過程での過剰コピーを減らすために, コントラスト損失を新たに設計する。
最後に、ChemNERスキーマでドメインの専門家によって注釈付けされた、新しいきめ細かい化学エンティティ抽出データセットであるChemNER+をリリースする。
ChemNER+とCHEMETのデータセットによる数ショット設定の実験では、新たに提案したフレームワークは、それぞれ8.26%と6.84%の絶対F1スコアゲインに寄与している。
関連論文リスト
- MARE: Multi-Aspect Rationale Extractor on Unsupervised Rationale Extraction [10.998983921416533]
教師なしの合理性抽出は、明示的な合理性アノテーションなしでモデル予測をサポートするためにテキストスニペットを抽出することを目的としている。
従来の作業は各側面を独立してエンコードすることが多く、アスペクト間の有意義な内部相関を捉える能力を制限する可能性がある。
本稿では,複数の側面を同時に説明・予測するためのマルチアスペクト・ライタリー・エクストラクタ(MARE)を提案する。
論文 参考訳(メタデータ) (2024-10-04T15:52:29Z) - Extract-and-Abstract: Unifying Extractive and Abstractive Summarization within Single Encoder-Decoder Framework [24.97672212363703]
本稿では,単一エンコーダ-デコーダモデルにおいて,抽出および抽象的要約タスクを協調的かつシームレスに実行するExtAbsを提案する。
ExtAbsでは、バニラエンコーダを増設して塩分を抽出し、バニラデコーダを提案された塩分マスクで修正してサマリーを生成する。
実験により、ExtAbsは抽出タスクのベースラインよりも優れたパフォーマンスを達成でき、抽象タスクのバニラモデルよりも同等か、さらに優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-18T09:21:25Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - S2F-NER: Exploring Sequence-to-Forest Generation for Complex Entity
Recognition [47.714230389689064]
本研究では、フォレストデコーダを介して文中のエンティティを直接抽出できる新しいシーケンス・ツー・フォレスト生成パラダイムS2F-NERを提案する。
具体的には,各樹木の最大深度が3である森林において,各樹木の各経路を自己回帰的に生成する。
このパラダイムに基づいて、我々のモデルは露出バイアス問題をエレガントに緩和し、Seq2Seqの単純さを維持することができる。
論文 参考訳(メタデータ) (2023-10-29T09:09:10Z) - End-to-End Models for Chemical-Protein Interaction Extraction: Better
Tokenization and Span-Based Pipeline Strategies [1.782718930156674]
我々は、ChemProtデータセット上で新しい最先端のE2EREパフォーマンスを生成するために、スパンベースのパイプラインアプローチを採用している。
提案手法は,E2EREにおいて,スパンベースアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2023-04-03T20:20:22Z) - Summarization Programs: Interpretable Abstractive Summarization with
Neural Modular Trees [89.60269205320431]
現在の抽象的要約モデルは明確な解釈可能性の欠如に悩まされるか、あるいは不完全理性を与える。
本稿では,バイナリツリーの(順序付き)リストからなる解釈可能なモジュラーフレームワークであるSummarization Program (SP)を提案する。
要約プログラムは、要約文毎に1つのルートノードを含み、各要約文と文書文を個別のツリーで接続する。
論文 参考訳(メタデータ) (2022-09-21T16:50:22Z) - Nested Named Entity Recognition as Latent Lexicalized Constituency
Parsing [29.705133932275892]
最近(Fu et al, 2021)は、ネストされたNERに取り組むために、スパンベースの選挙区に適応している。
本研究では, より表現力のある構造, 語彙化された選挙区木を用いて, 成分がキーワードでアノテートされる。
我々はアイズナー・サッタのアルゴリズムを有効活用し,部分的辺縁化と推論を効率的に行う。
論文 参考訳(メタデータ) (2022-03-09T12:02:59Z) - Document-level Entity-based Extraction as Template Generation [13.110360825201044]
本稿では2つの文書レベルEEタスクのための生成フレームワークを提案する: 役割充足者エンティティ抽出(REE)と関係抽出(RE)である。
まず、テンプレート生成問題として定式化し、モデルが依存性を効率的にキャプチャできるようにする。
キー情報の識別能力を高めるために、新しいクロスアテンションガイド付きコピー機構であるTopK Copyを事前訓練されたシーケンス・ツー・シーケンスモデルに組み込む。
論文 参考訳(メタデータ) (2021-09-10T14:18:22Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。