論文の概要: Automatic Pharma News Categorization
- arxiv url: http://arxiv.org/abs/2201.00688v1
- Date: Tue, 28 Dec 2021 08:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 13:33:18.190917
- Title: Automatic Pharma News Categorization
- Title(参考訳): 製薬ニュースの自動分類
- Authors: Stanislaw Adaszewski, Pascal Kuner, Ralf J. Jaeger
- Abstract要約: 医薬情報科学に関連する23のニュースカテゴリからなるテキストデータセットを使用する。
分類タスクにおける複数変圧器モデルの微調整性能を比較した。
本稿では,最上位の個人予測器からなるアンサンブルモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We use a text dataset consisting of 23 news categories relevant to pharma
information science, in order to compare the fine-tuning performance of
multiple transformer models in a classification task. Using a well-balanced
dataset with multiple autoregressive and autocoding transformation models, we
compare their fine-tuning performance. To validate the winning approach, we
perform diagnostics of model behavior on mispredicted instances, including
inspection of category-wise metrics, evaluation of prediction certainty and
assessment of latent space representations. Lastly, we propose an ensemble
model consisting of the top performing individual predictors and demonstrate
that this approach offers a modest improvement in the F1 metric.
- Abstract(参考訳): 薬剤情報科学に関連する23のニュースカテゴリからなるテキストデータセットを用いて,分類タスクにおける複数のトランスフォーマモデルの微調整性能を比較する。
複数のオートリグレッシブおよびオートコーディング変換モデルを備えたバランスの取れたデータセットを用いて、それらの微調整性能を比較する。
入賞アプローチを検証するために,カテゴリー別メトリクスの検査,予測確実性の評価,潜在空間表現の評価など,誤予測されたインスタンスにおけるモデル行動の診断を行う。
最後に,個々の予測器を最上位に有するアンサンブルモデルを提案し,この手法がf1指標の緩やかな改善をもたらすことを示す。
関連論文リスト
- TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Forecasting COVID-19 Caseloads Using Unsupervised Embedding Clusters of
Social Media Posts [14.201816626446885]
本稿では,トランスフォーマーをベースとした言語モデルを感染症モデルに組み込んだ新しいアプローチを提案する。
他の高品質データセットから抽出した特徴に対して,これらのクラスタ化埋め込み機能をベンチマークする。
しきい値分類タスクでは、上向きトレンド信号の予測において、他の全ての特徴種よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-20T18:59:04Z) - Using Explainable Boosting Machine to Compare Idiographic and Nomothetic
Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。
木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。
2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文 参考訳(メタデータ) (2022-04-04T17:56:37Z) - Vehicle Behavior Prediction and Generalization Using Imbalanced Learning
Techniques [1.3381749415517017]
本稿では,LSTMオートエンコーダとSVM分類器からなる対話認識予測モデルを提案する。
評価の結果,モデル性能が向上し,分類精度が向上した。
論文 参考訳(メタデータ) (2021-09-22T11:21:20Z) - Benchmarking AutoML Frameworks for Disease Prediction Using Medical
Claims [7.219529711278771]
我々は、人口統計情報や病気コード用のフラグなど、歴史的行政的主張を用いた大規模なデータセットを作成した。
このデータセット上で3つのAutoMLツールをトレーニングし、2019年の6つの異なる疾患結果を予測するとともに、いくつかのメトリクスでモデルパフォーマンスを評価しました。
全てのモデルでは、精度・リコール曲線の下で低面積を記録し、正の正の予測に失敗し、正の負の速度を高く保った。
論文 参考訳(メタデータ) (2021-07-22T07:34:48Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。