論文の概要: NukeBERT: A Pre-trained language model for Low Resource Nuclear Domain
- arxiv url: http://arxiv.org/abs/2003.13821v2
- Date: Wed, 19 Aug 2020 20:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 06:49:11.736048
- Title: NukeBERT: A Pre-trained language model for Low Resource Nuclear Domain
- Title(参考訳): NukeBERT: 低資源核ドメインのための事前訓練型言語モデル
- Authors: Ayush Jain, Dr. N.M. Meenachi, Dr. B. Venkatraman
- Abstract要約: 核エネルギーと原子エネルギーは、注釈のないデータを利用する際には未発見のままである。
7000の核ドメインに関する研究論文から新しいデータセットが作成された。
NukeBERT は BERT 語彙を学習データが少ないタスクに適合させる新しい技法を取り入れたものである。
- 参考スコア(独自算出の注目度): 15.831633922457973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant advances have been made in recent years on Natural Language
Processing with machines surpassing human performance in many tasks, including
but not limited to Question Answering. The majority of deep learning methods
for Question Answering targets domains with large datasets and highly matured
literature. The area of Nuclear and Atomic energy has largely remained
unexplored in exploiting non-annotated data for driving industry viable
applications. Due to lack of dataset, a new dataset was created from the 7000
research papers on nuclear domain. This paper contributes to research in
understanding nuclear domain knowledge which is then evaluated on Nuclear
Question Answering Dataset (NQuAD) created by nuclear domain experts as part of
this research. NQuAD contains 612 questions developed on 181 paragraphs
randomly selected from the IGCAR research paper corpus. In this paper, the
Nuclear Bidirectional Encoder Representational Transformers (NukeBERT) is
proposed, which incorporates a novel technique for building BERT vocabulary to
make it suitable for tasks with less training data. The experiments evaluated
on NQuAD revealed that NukeBERT was able to outperform BERT significantly, thus
validating the adopted methodology. Training NukeBERT is computationally
expensive and hence we will be open-sourcing the NukeBERT pretrained weights
and NQuAD for fostering further research work in the nuclear domain.
- Abstract(参考訳): 近年、自然言語処理における重要な進歩は、質問回答を含む多くのタスクにおいて、機械が人間のパフォーマンスを上回っている。
質問回答のためのディープラーニング手法の大半は、大きなデータセットと高度に成熟した文献を持つドメインを対象としている。
原子力と原子力の分野は、ほとんど未開拓のままであり、無注釈のデータを産業の実用的応用に役立てている。
データセットの欠如により、核ドメインに関する7000の研究論文から新しいデータセットが作成された。
本研究は,核領域の専門家が作成した核質問応答データセット(NQuAD)に基づいて評価した核領域知識の理解に関する研究に貢献する。
NQuADには、IGCAR研究論文コーパスからランダムに選択された181段落で開発された612の質問が含まれている。
本稿では,核双方向エンコーダ表現変換器(nukebert)を提案し,学習データが少ないタスクに適したbert語彙を構築するための新しい手法を提案する。
NQuADで評価した結果、NukeBERTはBERTを著しく上回り、採用手法を検証できた。
NukeBERTの訓練は計算に費用がかかるため、核領域でのさらなる研究を促進するため、NukeBERTの事前訓練重量とNQuADをオープンソース化する。
関連論文リスト
- Language Models as Science Tutors [79.73256703631492]
本研究では,LMの現実的なユーザビリティを科学的アシスタントとして測定するTutorEvalとTutorChatを紹介する。
既存の対話データセットを用いた微調整ベースモデルがTutorEvalの性能を低下させることを示す。
我々はTutorChatを用いて、7Bパラメータと34Bパラメータを持つLlemmaモデルを微調整する。これらのLMチューターは32Kのコンテキストウィンドウを持ち、GSM8KとMATHに強く依存しながらTutorEvalで優れている。
論文 参考訳(メタデータ) (2024-02-16T22:24:13Z) - The Radiation Oncology NLP Database [33.391114383354804]
放射線オンコロジーのためのNLPデータセットとして,放射線オンコロジーNLPデータベース(ROND)を提案する。
RONDは放射線腫瘍学の領域におけるこのギャップに対処するために特別に設計された。
Logic Reasoning, Text Classification, Named Entity Recognition (NER), Question Answering (QA), Text Summarization, patient-Clinician Conversationsなど,さまざまなNLPタスクを含んでいる。
論文 参考訳(メタデータ) (2024-01-19T19:23:37Z) - BoNuS: Boundary Mining for Nuclei Segmentation with Partial Point Labels [34.57288003249214]
本稿では,核の部分点ラベルのみを必要とする弱制御型核分割法を提案する。
具体的には,核内部情報と境界情報とを同時に学習するBoNuSという,核セグメンテーションのための新しい境界地雷フレームワークを提案する。
形態学的な知識で欠落した核を検出するためのカリキュラム学習を備えた核検出モジュールについて検討する。
論文 参考訳(メタデータ) (2024-01-15T02:50:39Z) - Predicting nuclear masses with product-unit networks [0.0]
本稿では,通常のニューロンのような処理ユニットを複雑な値の製品ユニットに置き換える,新しいタイプのニューラルネットワークの提案と探索を行う。
その性能は、いくつかのニューラルネットワークアーキテクチャのアーキテクチャと比較され、核質量予測への適合性を実証している。
論文 参考訳(メタデータ) (2023-05-08T12:51:16Z) - WebBrain: Learning to Generate Factually Correct Articles for Queries by
Grounding on Large Web Corpus [61.209202634703104]
我々は,Web から証拠をマイニングすることで,クエリを参照した短い事実記事を生成する NLP タスクを導入する。
最終的なゴールは、ウィキペディアに見当たらない事実検索のための、流動的で情報豊かで、事実的に正しい短い記事を作ることである。
我々は、英語のウィキペディア記事とそのクロール可能なウィキペディア参照を抽出し、大規模なデータセットWebBrain-Rawを構築した。
論文 参考訳(メタデータ) (2023-04-10T02:55:48Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Application of multilayer perceptron with data augmentation in nuclear
physics [0.0]
本稿では,データ拡張がニューラルネットワークモデルの予測能力に与える影響について検討する。
核物理学研究のためにデータ拡張技術が実装されたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-05-16T19:29:37Z) - NukeLM: Pre-Trained and Fine-Tuned Language Models for the Nuclear and
Energy Domains [0.0]
BERTアーキテクチャは、モデルがドメイン関連テキストを使用して事前トレーニングされたときに、ドメイン固有のタスクに対してさらに優れたパフォーマンスを示す。
NukeLMは、米国エネルギー省科学技術情報データベースから150万件の抽象化を事前訓練した核ドメイン言語モデルである。
細調整前におけるBERTスタイルアーキテクチャの事前学習は,両項目の分類作業において高い性能を示すことを示す。
論文 参考訳(メタデータ) (2021-05-25T20:00:59Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。