論文の概要: Cascade Neural Ensemble for Identifying Scientifically Sound Articles
- arxiv url: http://arxiv.org/abs/2004.06222v1
- Date: Mon, 13 Apr 2020 22:23:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:34:30.123073
- Title: Cascade Neural Ensemble for Identifying Scientifically Sound Articles
- Title(参考訳): 科学的に健全な項目を識別するためのカスケードニューラルアンサンブル
- Authors: Ashwin Karthik Ambalavanan, Murthy Devarakonda
- Abstract要約: 体系的なレビューとメタ分析を行うための障壁は、科学的に健全な関連項目を効率的に見つけることである。
我々は、MEDLINEから約50万記事のデータセットを用いて、SciBERTのアンサンブルアーキテクチャをトレーニングし、テストした。
カスケードアンサンブルのアーキテクチャは0.7505Fを達成し、49.1%のエラー率削減を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: A significant barrier to conducting systematic reviews and
meta-analysis is efficiently finding scientifically sound relevant articles.
Typically, less than 1% of articles match this requirement which leads to a
highly imbalanced task. Although feature-engineered and early neural networks
models were studied for this task, there is an opportunity to improve the
results.
Methods: We framed the problem of filtering articles as a classification
task, and trained and tested several ensemble architectures of SciBERT, a
variant of BERT pre-trained on scientific articles, on a manually annotated
dataset of about 50K articles from MEDLINE. Since scientifically sound articles
are identified through a multi-step process we proposed a novel cascade
ensemble analogous to the selection process. We compared the performance of the
cascade ensemble with a single integrated model and other types of ensembles as
well as with results from previous studies.
Results: The cascade ensemble architecture achieved 0.7505 F measure, an
impressive 49.1% error rate reduction, compared to a CNN model that was
previously proposed and evaluated on a selected subset of the 50K articles. On
the full dataset, the cascade ensemble achieved 0.7639 F measure, resulting in
an error rate reduction of 19.7% compared to the best performance reported in a
previous study that used the full dataset.
Conclusion: Pre-trained contextual encoder neural networks (e.g. SciBERT)
perform better than the models studied previously and manually created search
filters in filtering for scientifically sound relevant articles. The superior
performance achieved by the cascade ensemble is a significant result that
generalizes beyond this task and the dataset, and is analogous to query
optimization in IR and databases.
- Abstract(参考訳): 背景: 体系的なレビューとメタ分析を行う上で重要な障壁は、科学的に適切な記事を見つけることである。
通常、この要件に適合する記事の1%未満は、非常に不均衡なタスクにつながる。
このタスクのために、機能工学と初期のニューラルネットワークモデルが研究されたが、結果を改善する機会がある。
方法: 論文を分類課題としてフィルタリングすることの問題点を整理し, MEDLINEから約50万件の注釈付きデータセットを用いて, 理科記事に事前学習したBERTの変種であるSciBERTのアンサンブルアーキテクチャを訓練, 試験した。
科学的に健全な物品を多段階のプロセスで同定するため,選択過程に類似した新しいカスケードアンサンブルを提案する。
本研究は,カスケードアンサンブルの性能を単一統合モデルおよび他の種類のアンサンブルと比較し,過去の研究結果と比較した。
結果: カスケード・アンサンブル・アーキテクチャは, 従来提案され, 50k記事の選抜サブセットで評価されたcnnモデルと比較して, 49.1%の誤差率削減を達成した。
全データセットにおいて、カスケードアンサンブルは 0.7639 f の尺度を達成し、全データセットを使用した以前の調査で報告された最高のパフォーマンスと比較してエラーレートが19.7%減少した。
結論: 事前学習された文脈エンコーダニューラルネットワーク(SciBERTなど)は、以前に研究されたモデルよりも優れた性能を示し、科学的に関連のある記事のフィルタリングにおいて手動で検索フィルタを作成する。
カスケードアンサンブルによって達成される優れたパフォーマンスは、このタスクとデータセットを超えて一般化する重要な結果であり、IRやデータベースのクエリ最適化に類似している。
関連論文リスト
- Comparative Analysis and Ensemble Enhancement of Leading CNN Architectures for Breast Cancer Classification [0.0]
本研究は,病理組織像を用いた乳癌分類への新規かつ正確なアプローチを提案する。
さまざまな画像データセット間で、主要な畳み込みニューラルネットワーク(CNN)モデルを体系的に比較する。
そこで本研究では,スタンドアロンCNNモデルにおいて,例外的分類精度を実現するために必要な設定について検討した。
論文 参考訳(メタデータ) (2024-10-04T11:31:43Z) - From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search [19.070305201045954]
テキストベースの人物検索では、プライバシ保護と手動アノテーションの困難なタスクに対する懸念に対処するため、データ生成が主流となっている。
構築されたデータセット内のデータのサブセットのみが決定的な役割を果たすことを観察する。
我々は、この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと、光微細チューニングのためのWoRA学習戦略を含む新しいフィルタリング-WoRAパラダイムを導入する。
論文 参考訳(メタデータ) (2024-04-16T05:29:14Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z) - Large-scale empirical validation of Bayesian Network structure learning
algorithms with noisy data [9.04391541965756]
本稿では、15個の構造学習アルゴリズムの性能について検討する。
各アルゴリズムは、複数のケーススタディ、サンプルサイズ、ノイズの種類、および複数の評価基準で評価される。
その結果、従来の合成性能は、実世界のパフォーマンスを10%以上50%以上で過大評価する可能性があることが示唆された。
論文 参考訳(メタデータ) (2020-05-18T18:40:09Z) - Question Type Classification Methods Comparison [0.0]
本稿では、ロジスティック回帰、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory Network(LSTM)、Quasi-Recurrent Neural Networks(QRNN)といった問題分類タスクに対する最先端のアプローチの比較研究について述べる。
すべてのモデルは、事前訓練されたGLoVeワードの埋め込みを使用し、人間のラベル付きデータに基づいて訓練される。
最良の精度は5つの畳み込み層と、並列に積み重ねられたさまざまなカーネルサイズを持つCNNモデルを使用して達成され、その後に1つの完全に接続された層が続く。
論文 参考訳(メタデータ) (2020-01-03T00:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。