論文の概要: Extraction of Medication Names from Twitter Using Augmentation and an
Ensemble of Language Models
- arxiv url: http://arxiv.org/abs/2111.06664v1
- Date: Fri, 12 Nov 2021 11:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 19:54:19.752087
- Title: Extraction of Medication Names from Twitter Using Augmentation and an
Ensemble of Language Models
- Title(参考訳): Augmentation と Ensemble of Language Models を用いたTwitter からのメディケイト名抽出
- Authors: Igor Kulev, Berkay K\"opr\"u, Raul Rodriguez-Esteban, Diego Saldana,
Yi Huang, Alessandro La Torraca, Elif Ozkirimli
- Abstract要約: BioCreative VII Track 3の課題は、Twitterのユーザータイムラインで薬物名を特定することである。
この課題への回答として、いくつかのデータ拡張技術を用いて、利用可能なトレーニングデータを拡張しました。
その後、拡張されたデータは、一般ドメインのTwitterコンテンツで事前トレーニングされた言語モデルのアンサンブルを微調整するために使用された。
- 参考スコア(独自算出の注目度): 55.44979919361194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The BioCreative VII Track 3 challenge focused on the identification of
medication names in Twitter user timelines. For our submission to this
challenge, we expanded the available training data by using several data
augmentation techniques. The augmented data was then used to fine-tune an
ensemble of language models that had been pre-trained on general-domain Twitter
content. The proposed approach outperformed the prior state-of-the-art
algorithm Kusuri and ranked high in the competition for our selected objective
function, overlapping F1 score.
- Abstract(参考訳): BioCreative VII Track 3の課題は、Twitterのユーザータイムラインで薬物名を特定することである。
この課題への提案のために、いくつかのデータ拡張技術を用いて、利用可能なトレーニングデータを拡張しました。
その後、拡張データを使用して、一般ドメインのtwitterコンテンツで事前トレーニングされた言語モデルのアンサンブルを微調整した。
提案手法は,最先端アルゴリズムであるkusuriを上回り,選択対象関数の競争においてf1得点を上回った。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - VIBE: Topic-Driven Temporal Adaptation for Twitter Classification [9.476760540618903]
我々は、過去のデータに基づいてトレーニングされたモデルが将来テストされる時間適応について研究する。
我々のモデルは、わずか3%のデータしか持たないが、従来の最先端の継続的な事前学習方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-10-16T08:53:57Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Rumour detection using graph neural network and oversampling in
benchmark Twitter dataset [0.30079490585515345]
本稿では,オーバサンプリングに着目した自動噂検出システムの構築手法を提案する。
オーバーサンプリング手法は,データセットの不足したクラスに対する合成サンプルを生成するために,文脈的データ拡張に頼っている。
スレッド上の非線形会話をモデル化するために、2つのグラフニューラルネットワーク(GNN)を提案する。
論文 参考訳(メタデータ) (2022-12-20T08:43:10Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - BCH-NLP at BioCreative VII Track 3: medications detection in tweets
using transformer networks and multi-task learning [9.176393163624002]
テキスト分類とシーケンスラベリングを併用したマルチタスク学習モデルを実装した。
私たちのベストシステムは80.4の厳格なF1を達成し、全参加者の平均スコアよりも1位と10ポイント以上高くランク付けしました。
論文 参考訳(メタデータ) (2021-11-26T19:22:51Z) - A PubMedBERT-based Classifier with Data Augmentation Strategy for
Detecting Medication Mentions in Tweets [2.539568419434224]
Twitterは毎日大量のユーザー生成テキスト(ツイート)を公開している。
エンティティ認識(NER)は、ツイートデータにいくつかの特別な課題を提示します。
本稿では,複数のデータ拡張手法を組み合わせたPubMedBERTベースの分類器について検討する。
提案手法はF1スコアが0.762であり, 平均値よりもかなり高い値を示した。
論文 参考訳(メタデータ) (2021-11-03T14:29:24Z) - Deep learning based registration using spatial gradients and noisy
segmentation labels [52.78503776563559]
ディープラーニングベースのアプローチは、高速かつ実行可能な登録戦略を提供することで、非常に人気を博しました。
我々の研究は(i)対称な定式化に依存し、ソースからターゲットへの変換とターゲットからソースへの変換を同時に予測し、訓練された表現を類似させる。
本手法では,タスク3では0.64ドル,テスト4では0.85ドルの平均ダイスを報告し,3位となった。
論文 参考訳(メタデータ) (2020-10-21T11:08:45Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。