論文の概要: An automated domain-independent text reading, interpreting and
extracting approach for reviewing the scientific literature
- arxiv url: http://arxiv.org/abs/2107.14638v1
- Date: Fri, 30 Jul 2021 14:02:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:05:02.368485
- Title: An automated domain-independent text reading, interpreting and
extracting approach for reviewing the scientific literature
- Title(参考訳): ドメインに依存しないテキストの自動読み出し, 解釈, 抽出による科学文献のレビュー
- Authors: Amauri J Paula
- Abstract要約: A.RIX(A.RIX)は、機械学習に基づく自然言語処理(NLP)アプローチで、記事のコーパスからカテゴリおよび数値パラメータを自動的に認識し抽出する。
a.RIXエンジンの効率を実証するため、天然物(NP)を扱う7,873の科学論文コーパスが処理された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is presented here a machine learning-based (ML) natural language
processing (NLP) approach capable to automatically recognize and extract
categorical and numerical parameters from a corpus of articles. The approach
(named a.RIX) operates with a concomitant/interchangeable use of ML models such
as neuron networks (NNs), latent semantic analysis (LSA) and naive-Bayes
classifiers (NBC), and a pattern recognition model using regular expression
(REGEX). To demonstrate the efficiency of the a.RIX engine, it was processed a
corpus of 7,873 scientific articles dealing with natural products (NPs). The
engine automatically extracts categorical and numerical parameters such as (i)
the plant species from which active molecules are extracted, (ii) the
microorganisms species for which active molecules can act against, and (iii)
the values of minimum inhibitory concentration (MIC) against these
microorganisms. The parameters are extracted without part-of-speech tagging
(POS) and named entity recognition (NER) approaches (i.e. without the need of
text annotation), and the models training is performed with unsupervised
approaches. In this way, a.RIX can be essentially used on articles from any
scientific field. Finally, it has a potential to make obsolete the currently
used articles reviewing process in some areas, specially those in which texts
structure, text semantics and latent knowledge is captured by machine learning
models.
- Abstract(参考訳): 記事のコーパスから分類的および数値的パラメータを自動的に認識し抽出できる機械学習(ML)自然言語処理(NLP)アプローチを提案する。
アプローチ(a.RIX)は、ニューロンネットワーク(NN)、潜在意味分析(LSA)、ネイブ・ベイズ分類器(NBC)などのMLモデルと、正規表現(REGEX)を用いたパターン認識モデルとの共用/交換可能な利用で動作する。
a.RIXエンジンの効率を実証するため、天然物(NP)を扱う7,873の科学論文コーパスが処理された。
このエンジンは、(i)活性分子が抽出される植物種、(ii)活性分子が作用する微生物種、(iii)これらの微生物に対して最小抑制濃度(MIC)の値を自動抽出する。
パラメータは、POS(Part-of-speech tagging)と名前付きエンティティ認識(NER)アプローチなしで抽出される。
テキストアノテーションを必要とせずに)、そしてモデルトレーニングは教師なしのアプローチで実行される。
このように、A.RIXは本質的にあらゆる科学分野の論文に利用できる。
最後に、特にテキストの構造、テキストの意味論、潜在知識が機械学習モデルによってキャプチャされる分野において、現在使われている記事レビュープロセスが時代遅れになる可能性がある。
関連論文リスト
- Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Notes on Applicability of Explainable AI Methods to Machine Learning
Models Using Features Extracted by Persistent Homology [0.0]
永続ホモロジー(PH)は機械学習に広く応用されている。
比較的単純なダウンストリーム機械学習モデルで十分なレベルの精度を達成する能力は、これらの抽出された特徴を処理する際に、パイプラインの優れた解釈可能性の基盤となる。
本稿では,このPH-MLパイプラインへの説明可能なAI手法の適用の可能性について検討する。
論文 参考訳(メタデータ) (2023-10-15T08:56:15Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Tuning Traditional Language Processing Approaches for Pashto Text
Classification [0.0]
本研究の目的は,Pashto自動テキスト分類システムの構築である。
本研究は、統計的およびニューラルネットワーク機械学習技術の両方を含む複数のモデルを比較する。
本研究では,分類アルゴリズムとTFIDF特徴抽出法を用いて,平均試験精度94%を得た。
論文 参考訳(メタデータ) (2023-05-04T22:57:45Z) - DriPP: Driven Point Processes to Model Stimuli Induced Patterns in M/EEG
Signals [62.997667081978825]
我々はDriPPと呼ばれる新しい統計点過程モデルを開発する。
我々は、このモデルのパラメータを推定するために、高速で原理化された予測最大化(EM)アルゴリズムを導出する。
標準MEGデータセットの結果から,我々の手法が事象関連ニューラルレスポンスを明らかにすることが示された。
論文 参考訳(メタデータ) (2021-12-08T13:07:21Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Automatic coding of students' writing via Contrastive Representation
Learning in the Wasserstein space [6.884245063902909]
本研究は,学生の文章の質的分析を支援する統計的機械学習(ML)手法を構築するためのステップである。
MLアルゴリズムは,人間解析のラタ間信頼性に近づいた。
論文 参考訳(メタデータ) (2020-11-26T16:52:48Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。