論文の概要: Automated Annotation of Scientific Texts for ML-based Keyphrase
Extraction and Validation
- arxiv url: http://arxiv.org/abs/2311.05042v1
- Date: Wed, 8 Nov 2023 22:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 16:46:35.897317
- Title: Automated Annotation of Scientific Texts for ML-based Keyphrase
Extraction and Validation
- Title(参考訳): MLに基づくキーワード抽出と検証のための科学テキストの自動アノテーション
- Authors: Oluwamayowa O. Amusat, Harshad Hegde, Christopher J. Mungall, Anna
Giannakou, Neil P. Byers, Dan Gunter, Kjiersten Fagnan and Lavanya
Ramakrishnan
- Abstract要約: ラベルなしテキストに対するML生成メタデータの検証のための2つの新しいテキストラベリング手法を提案する。
本手法は,未ラベルテキストと科学領域に関する既存の情報を活用する2つの新しい手法の可能性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advanced omics technologies and facilities generate a wealth of valuable data
daily; however, the data often lacks the essential metadata required for
researchers to find and search them effectively. The lack of metadata poses a
significant challenge in the utilization of these datasets. Machine
learning-based metadata extraction techniques have emerged as a potentially
viable approach to automatically annotating scientific datasets with the
metadata necessary for enabling effective search. Text labeling, usually
performed manually, plays a crucial role in validating machine-extracted
metadata. However, manual labeling is time-consuming; thus, there is an need to
develop automated text labeling techniques in order to accelerate the process
of scientific innovation. This need is particularly urgent in fields such as
environmental genomics and microbiome science, which have historically received
less attention in terms of metadata curation and creation of gold-standard text
mining datasets.
In this paper, we present two novel automated text labeling approaches for
the validation of ML-generated metadata for unlabeled texts, with specific
applications in environmental genomics. Our techniques show the potential of
two new ways to leverage existing information about the unlabeled texts and the
scientific domain. The first technique exploits relationships between different
types of data sources related to the same research study, such as publications
and proposals. The second technique takes advantage of domain-specific
controlled vocabularies or ontologies. In this paper, we detail applying these
approaches for ML-generated metadata validation. Our results show that the
proposed label assignment approaches can generate both generic and
highly-specific text labels for the unlabeled texts, with up to 44% of the
labels matching with those suggested by a ML keyword extraction algorithm.
- Abstract(参考訳): 先進的なオミクス技術や施設は、毎日大量の貴重なデータを生成するが、研究者が効果的に発見し、検索するのに必要となるメタデータを欠いていることが多い。
メタデータの欠如は、これらのデータセットの利用に重大な課題をもたらす。
機械学習ベースのメタデータ抽出技術は、科学的データセットに効果的な検索を可能にするのに必要なメタデータを注釈付けするための潜在的に有効なアプローチとして登場した。
テキストラベリングは通常手動で行われるが、機械抽出メタデータの検証において重要な役割を果たす。
しかし, 手動ラベリングは時間を要するため, 科学的革新の過程を加速させるためには, 自動テキストラベリング技術を開発する必要がある。
この必要性は、歴史的にメタデータのキュレーションや金標準テキストマイニングデータセットの作成に関してあまり注目されていない環境ゲノム学やマイクロバイオーム科学といった分野において特に緊急である。
本稿では,未ラベルテキストに対するml生成メタデータの検証のための2つの自動ラベリング手法を提案し,環境ゲノム学への応用について述べる。
本手法は,未ラベルテキストと科学領域に関する既存の情報を活用する2つの新しい手法の可能性を示す。
最初のテクニックは、出版や提案など、同じ研究研究に関連するさまざまなタイプのデータソース間の関係を利用する。
第2のテクニックはドメイン固有の制御された語彙やオントロジを利用する。
本稿では,これらの手法をML生成メタデータ検証に適用する。
提案手法は,MLキーワード抽出アルゴリズムで提案したテキストに適合するラベルの最大44%のラベルを,ラベル付きテキストの汎用テキストラベルと高特定テキストラベルの両方を生成することができることを示す。
関連論文リスト
- TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - The Effect of Metadata on Scientific Literature Tagging: A Cross-Field
Cross-Model Study [29.965010251365946]
メタデータが19分野にわたる科学文献のタグ付けに与える影響を体系的に研究した。
全分野にわたるメタデータの効果のユビキタスなパターンを観察する。
論文 参考訳(メタデータ) (2023-02-07T09:34:41Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Investigation on Data Adaptation Techniques for Neural Named Entity
Recognition [51.88382864759973]
一般的な実践は、大きなモノリンガルなラベルなしコーパスを使用することである。
もう一つの一般的なテクニックは、オリジナルのラベル付きデータから合成データを作成することである。
本研究では,これらの2つの手法が3つの異なる名前付きエンティティ認識タスクの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2021-10-12T11:06:03Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z) - Minimally Supervised Categorization of Text with Metadata [40.13841133991089]
メタデータでテキストを分類する最小限のフレームワークであるMetaCatを提案する。
我々は,単語,文書,ラベル,メタデータ間の関係を記述した生成プロセスを開発する。
同じ生成過程に基づいて,ラベル不足のボトルネックに対処するため,トレーニングサンプルを合成する。
論文 参考訳(メタデータ) (2020-05-01T21:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。