論文の概要: Improving Tagging Consistency and Entity Coverage for Chemical
Identification in Full-text Articles
- arxiv url: http://arxiv.org/abs/2111.10584v1
- Date: Sat, 20 Nov 2021 13:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 16:09:25.148072
- Title: Improving Tagging Consistency and Entity Coverage for Chemical
Identification in Full-text Articles
- Title(参考訳): 全文記事の化学識別におけるタグ一貫性とエンティティ被覆の改善
- Authors: Hyunjae Kim, Mujeen Sung, Wonjin Yoon, Sungjoon Park, Jaewoo Kang
- Abstract要約: 本論文は,BioCreative VII Track 2 チャレンジの化学識別タスクに提案されたシステムに関する技術的報告である。
タグの一貫性とエンティティカバレッジを様々な手法で改善することを目的としている。
課題の公式評価では,ベースラインモデルを大幅に上回り,NERでは1位にランクインした。
- 参考スコア(独自算出の注目度): 17.24298646089662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is a technical report on our system submitted to the chemical
identification task of the BioCreative VII Track 2 challenge. The main feature
of this challenge is that the data consists of full-text articles, while
current datasets usually consist of only titles and abstracts. To effectively
address the problem, we aim to improve tagging consistency and entity coverage
using various methods such as majority voting within the same articles for
named entity recognition (NER) and a hybrid approach that combines a dictionary
and a neural model for normalization. In the experiments on the NLM-Chem
dataset, we show that our methods improve models' performance, particularly in
terms of recall. Finally, in the official evaluation of the challenge, our
system was ranked 1st in NER by significantly outperforming the baseline model
and more than 80 submissions from 16 teams.
- Abstract(参考訳): 本論文は,BioCreative VII Track 2 チャレンジの化学識別タスクに提案されたシステムに関する技術的報告である。
この課題の主な特徴は、データがフルテキストの記事で構成されていることであるが、現在のデータセットは通常、タイトルと抽象だけで構成されている。
この問題を効果的に解決するために,同記事内の多数決投票(NER)や,正規化のための辞書とニューラルモデルを組み合わせたハイブリッドアプローチなどを用いて,タグの一貫性とエンティティカバレッジを改善することを目的とする。
NLM-Chemデータセットを用いた実験により,提案手法はモデルの性能,特にリコールの観点から向上することを示した。
最後に,課題に対する公式評価において,本システムは,ベースラインモデルと16チームから80以上の応募を上回って,nerで1位にランクインした。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - SUMIE: A Synthetic Benchmark for Incremental Entity Summarization [6.149024468471498]
既存のデータセットは、言語モデルがエンティティの要約を段階的に更新できるかどうかを適切にテストしていません。
我々は、実世界のIES課題を明らかにするために設計された、完全に合成されたデータセットであるSUMIEを紹介する。
このデータセットは、誤ったエンティティアソシエーションや不完全な情報提示といった問題を効果的に強調する。
論文 参考訳(メタデータ) (2024-06-07T16:49:21Z) - Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation [5.3558730908641525]
本稿では,ATG のタスクを標準化するためのベンチマークデータセット CAMERA を提案する。
我々の実験は、現状と残りの課題を示している。
また、ATGの既存の指標とLLMに基づく評価器が人間の評価とどのように一致しているかについても検討する。
論文 参考訳(メタデータ) (2023-09-21T12:51:24Z) - NER-to-MRC: Named-Entity Recognition Completely Solving as Machine
Reading Comprehension [29.227500985892195]
NER は NER-to-MRC と呼ばれる機械読解問題である。
我々は NER タスクを MRC で解くのに適した形式に効率よく変換する。
我々は、WNUT-16データセットを最大11.24%改善し、外部データなしで最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2023-05-06T08:05:22Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Questioning the Validity of Summarization Datasets and Improving Their
Factual Consistency [14.974996886744083]
SummFCは,事実整合性を改善したフィルタされた要約データセットである。
我々は,データセットが要約システムの開発と評価のための有効なベンチマークとなるべきだと論じている。
論文 参考訳(メタデータ) (2022-10-31T15:04:20Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Chemical Identification and Indexing in PubMed Articles via BERT and
Text-to-Text Approaches [3.7462395049372894]
Biocreative VII Track-2 チャレンジは、名前付きエンティティ認識、エンティティリンク(またはエンティティ正規化)、トピックインデックスタスクで構成される。
BERTベースのBioMegatronモデルで最高の性能を得る。
従来のNER法に加えて,新しいテキスト・トゥ・テキストや「プロンプト」をベースとした手法を用いて,名前付きエンティティ認識とエンティティリンクを試みている。
論文 参考訳(メタデータ) (2021-11-30T18:21:06Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。