論文の概要: CXP949 at WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets --
RoBERTa Ensembles and The Continued Relevance of Handcrafted Features
- arxiv url: http://arxiv.org/abs/2010.07988v1
- Date: Thu, 15 Oct 2020 19:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:01:23.807475
- Title: CXP949 at WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets --
RoBERTa Ensembles and The Continued Relevance of Handcrafted Features
- Title(参考訳): CXP949 - WNUT-2020 Task 2: Extracting Informative COVID-19 Tweets -RoBERTa Ensembles and the Continued Relevance of Handcrafted Features
- Authors: Calum Perrio and Harish Tayyar Madabushi
- Abstract要約: 本稿では,ノイズの多いユーザ生成テキストに関するワークショップ第2号に提案する。
アンサンブル実装によるテキスト分類のための訓練済み言語モデルの性能改善について検討する。
追加機能を含めることで、分類結果が改善され、トップパフォーマンスチームの2ポイント以内のスコアが得られます。
- 参考スコア(独自算出の注目度): 0.6980076213134383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our submission to Task 2 of the Workshop on Noisy
User-generated Text. We explore improving the performance of a pre-trained
transformer-based language model fine-tuned for text classification through an
ensemble implementation that makes use of corpus level information and a
handcrafted feature. We test the effectiveness of including the aforementioned
features in accommodating the challenges of a noisy data set centred on a
specific subject outside the remit of the pre-training data. We show that
inclusion of additional features can improve classification results and achieve
a score within 2 points of the top performing team.
- Abstract(参考訳): 本稿では,うるさいユーザ生成テキストに関するワークショップのタスク2に提案する。
本研究では,コーパスレベル情報と手作り機能を利用したアンサンブル実装により,テキスト分類のための微調整済み変換言語モデルの性能向上を検討する。
本研究は,事前学習データの制限外において,特定の被験者を対象としたノイズデータセットの課題に対処する上で,前述の特徴を含めることの有効性を検証する。
追加機能を含めることで、分類結果が改善され、トップパフォーマンスチームの2ポイント以内のスコアが得られます。
関連論文リスト
- Proposal Report for the 2nd SciCAP Competition 2024 [20.58804817441756]
本稿では補助情報を用いた文書要約手法を提案する。
提案実験は,高品質なOCRデータを活用することで,記述対象に関するコンテンツを効率的に要約できることを実証した。
提案手法は,2024年のSciCAPコンペティションにおいて,長字幕と短字幕で4.33点,短字幕で4.66点のスコアを得た。
論文 参考訳(メタデータ) (2024-07-02T02:42:29Z) - Nullpointer at ArAIEval Shared Task: Arabic Propagandist Technique Detection with Token-to-Word Mapping in Sequence Tagging [0.0]
本稿では、ArAIEval共有タスク1から、ツイートやニュース節を含むアラビア語テキストにおけるプロパガンダ技術検出の最適化について検討する。
実験結果から,単語の最初のトークンをテクニック予測に頼っていると,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-07-01T15:15:24Z) - TAROT: A Hierarchical Framework with Multitask Co-Pretraining on
Semi-Structured Data towards Effective Person-Job Fit [60.31175803899285]
本稿では,階層型マルチタスク協調訓練フレームワークであるTAROTを提案する。
TAROTは、プロファイルとジョブにおける半構造化テキストをターゲットにしており、取得したセマンティック情報を各レベルで制限するために、複数のきめ細かい事前訓練タスクと共に保持されている。
論文 参考訳(メタデータ) (2024-01-15T07:57:58Z) - Information Type Classification with Contrastive Task-Specialized
Sentence Encoders [8.301569507291006]
下流分類のためのコントラスト型タスク特化文エンコーダを提案する。
本稿では,CrisisLex,HumAID,TrecIS情報型分類タスクにおけるF1スコアの性能向上を示す。
論文 参考訳(メタデータ) (2023-12-18T08:45:39Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - DisCoDisCo at the DISRPT2021 Shared Task: A System for Discourse
Segmentation, Classification, and Connective Detection [4.371388370559826]
我々のシステムはDisCoDisCoと呼ばれ、コンテキスト化された単語の埋め込みを手作りの機能で強化する。
関係分類の結果は、新しい2021ベンチマークで強い性能を示している。
複数の事前学習されたトランスフォーマーベース言語モデルの部分評価は、Next Sentence Predictionタスクで事前学習されたモデルが関係分類に最適であることを示している。
論文 参考訳(メタデータ) (2021-09-20T18:11:05Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - On the use of Self-supervised Pre-trained Acoustic and Linguistic
Features for Continuous Speech Emotion Recognition [2.294014185517203]
音声から連続的な感情認識を行うために,wav2vec と camemBERT を自己教師付き学習モデルとして用いた。
著者らにとって,本論文は,wav2vecとBERTライクな事前学習特徴の併用が連続SERタスクに非常に関係していることを示す最初の研究である。
論文 参考訳(メタデータ) (2020-11-18T11:10:29Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。