論文の概要: Scaling Systematic Literature Reviews with Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2010.04665v1
- Date: Fri, 9 Oct 2020 16:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:58:28.698926
- Title: Scaling Systematic Literature Reviews with Machine Learning Pipelines
- Title(参考訳): 機械学習パイプラインによる体系的文献のスケールアップ
- Authors: Seraphina Goldfarb-Tarrant, Alexander Robertson, Jasmina Lazic,
Theodora Tsouloufi, Louise Donnison, Karen Smyth
- Abstract要約: 体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
- 参考スコア(独自算出の注目度): 57.82662094602138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic reviews, which entail the extraction of data from large numbers of
scientific documents, are an ideal avenue for the application of machine
learning. They are vital to many fields of science and philanthropy, but are
very time-consuming and require experts. Yet the three main stages of a
systematic review are easily done automatically: searching for documents can be
done via APIs and scrapers, selection of relevant documents can be done via
binary classification, and extraction of data can be done via
sequence-labelling classification. Despite the promise of automation for this
field, little research exists that examines the various ways to automate each
of these tasks. We construct a pipeline that automates each of these aspects,
and experiment with many human-time vs. system quality trade-offs. We test the
ability of classifiers to work well on small amounts of data and to generalise
to data from countries not represented in the training data. We test different
types of data extraction with varying difficulty in annotation, and five
different neural architectures to do the extraction. We find that we can get
surprising accuracy and generalisability of the whole pipeline system with only
2 weeks of human-expert annotation, which is only 15% of the time it takes to
do the whole review manually and can be repeated and extended to new data with
no additional effort.
- Abstract(参考訳): 大量の科学文書からのデータ抽出を伴う体系的レビューは、機械学習の応用にとって理想的な方法である。
それらは科学や慈善の多くの分野に不可欠であるが、非常に時間がかかり、専門家を必要とする。
ドキュメントの検索はAPIとスクレイパーで行うことができ、関連するドキュメントの選択はバイナリ分類で行うことができ、データの抽出はシーケンスラベリング分類で行うことができる。
この分野の自動化の約束にもかかわらず、これらのタスクを自動化する様々な方法を調べる研究はほとんどない。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
我々は,少量のデータにうまく機能し,訓練データに代表されない国のデータに一般化する分類器の能力をテストする。
我々は、アノテーションの難易度が異なるさまざまなタイプのデータ抽出と、抽出を行うための5つの異なるニューラルネットワークをテストする。
2週間の人間-専門家のアノテーションだけで、パイプラインシステム全体の驚くほどの正確さと一般化が得られます。これは、レビュー全体を手作業で行うのに要する時間の15%に過ぎず、追加の労力なしで、繰り返して新しいデータに拡張することができます。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - A novel evaluation methodology for supervised Feature Ranking algorithms [0.0]
本稿では,特徴ランクの新たな評価手法を提案する。
合成データセットを使用することで、特徴重要度スコアを事前に知ることができ、より体系的な評価が可能になる。
新しい方法論を使った大規模な実験を容易にするため、fsevalと呼ばれるベンチマークフレームワークがPythonで構築された。
論文 参考訳(メタデータ) (2022-07-09T12:00:36Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Transfer Learning for Autonomous Chatter Detection in Machining [0.9281671380673306]
大振幅のシャッター振動は加工過程において最も重要な現象の1つである。
業界全体でのチャット検出に機械学習を適用する上で、3つの課題が特定できる。
これら3つの課題は、移行学習の傘の下でグループ化することができる。
論文 参考訳(メタデータ) (2022-04-11T20:46:06Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Applications of Machine Learning in Document Digitisation [0.0]
我々は、デジタル化プロセスを自動化するため、現代の機械学習技術の使用を提唱する。
本稿では,2つの図解アプリケーションによるデータ収集に機械デジタル化を適用する可能性について概説する。
第1に、看護師ジャーナルの生スキャンに適用された教師なしレイアウト分類を用いて、治療指標を構築することができることを示した。
第2のアプリケーションは、注意に基づくニューラルネットワークを使用して手書きのテキスト認識を使用して、デンマークの多数の死亡証明書から年齢と出生と死亡を転写する。
論文 参考訳(メタデータ) (2021-02-05T15:35:28Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。