論文の概要: Enhancing Crisis-Related Tweet Classification with Entity-Masked
Language Modeling and Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2211.11468v1
- Date: Mon, 21 Nov 2022 13:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:38:14.667556
- Title: Enhancing Crisis-Related Tweet Classification with Entity-Masked
Language Modeling and Multi-Task Learning
- Title(参考訳): エンティティマッシュ言語モデルとマルチタスク学習による危機関連ツイート分類の強化
- Authors: Philipp Seeberger, Korbinian Riedhammer
- Abstract要約: 本稿では,マルチタスク学習問題として,エンティティ・マスク言語モデリングと階層型マルチラベル分類の組み合わせを提案する。
我々は,TREC-ISデータセットからのつぶやきに対する評価を行い,動作可能な情報型に対して最大10%のF1スコアの絶対的なパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 0.30458514384586394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media has become an important information source for crisis management
and provides quick access to ongoing developments and critical information.
However, classification models suffer from event-related biases and highly
imbalanced label distributions which still poses a challenging task. To address
these challenges, we propose a combination of entity-masked language modeling
and hierarchical multi-label classification as a multi-task learning problem.
We evaluate our method on tweets from the TREC-IS dataset and show an absolute
performance gain w.r.t. F1-score of up to 10% for actionable information types.
Moreover, we found that entity-masking reduces the effect of overfitting to
in-domain events and enables improvements in cross-event generalization.
- Abstract(参考訳): ソーシャルメディアは危機管理の重要な情報源となり、進行中の開発や重要な情報への迅速なアクセスを提供する。
しかし、分類モデルは事象に関連したバイアスと高度にバランスのとれたラベル分布に苦しむ。
これらの課題に対処するため,マルチタスク学習問題として,エンティティ・マインド言語モデリングと階層型マルチラベル分類の組み合わせを提案する。
TREC-ISデータセットからのつぶやきに対する評価を行い、動作可能な情報型に対して最大10%の性能向上を示す。
さらに,エンティティ・マスキングはドメイン内イベントへのオーバーフィッティングの効果を低減し,クロスイベント一般化の改善を可能にする。
関連論文リスト
- A Social Context-aware Graph-based Multimodal Attentive Learning Framework for Disaster Content Classification during Emergencies [0.0]
CrisisSpotは、テキストと視覚の複雑な関係をキャプチャする手法である。
IDEAは、データ内の調和とコントラストの両方のパターンをキャプチャして、マルチモーダルインタラクションを強化する。
CrisisSpotは最先端の手法と比較してF1スコアの平均9.45%と5.01%の上昇を達成した。
論文 参考訳(メタデータ) (2024-10-11T13:51:46Z) - Exploring Contrastive Learning for Long-Tailed Multi-Label Text Classification [48.81069245141415]
マルチラベルテキスト分類のための新しいコントラスト損失関数を提案する。
マイクロF1スコアは、他の頻繁に採用される損失関数と一致するか、上回っている。
これは、3つのマルチラベルデータセットでMacro-F1スコアが大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2024-04-12T11:12:16Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Information Type Classification with Contrastive Task-Specialized
Sentence Encoders [8.301569507291006]
下流分類のためのコントラスト型タスク特化文エンコーダを提案する。
本稿では,CrisisLex,HumAID,TrecIS情報型分類タスクにおけるF1スコアの性能向上を示す。
論文 参考訳(メタデータ) (2023-12-18T08:45:39Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - 2nd Place Solution for ICCV 2021 VIPriors Image Classification
Challenge: An Attract-and-Repulse Learning Approach [41.346232387426944]
畳み込みニューラルネットワーク(CNN)は、大規模なデータセットを利用することで、画像分類において大きな成功を収めた。
特徴表現を豊かにするContrastive Regularization(CR)と、異なるクラスに対する適合性のバランスをとるSymmetric Cross Entropy(SCE)からなるAttract-and-Repulseを提案する。
具体的には、SCEとCRは、クラス(トラクション)とインスタンス(リパルス)の情報間の適応的トレードオフによる過度な適合を緩和しながら、識別表現を学習する。
論文 参考訳(メタデータ) (2022-06-13T13:54:33Z) - CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification [18.78457628409226]
我々は、CMA-CLIP(Cross-Modality Attention Contrastive Language- Image Pre-training)を提案する。
CMA-CLIPは、画像とテキストのペアから情報を効果的に融合するために、シーケンスワイドアテンションとモーダリティアテンションの2つのタイプのクロスモーダリティアテンションを統一する。
我々は,Major Retail Website Product Attribute(MRWPA)データセットと2つのパブリックデータセットであるFood101とFashion-Genで実験を行った。
論文 参考訳(メタデータ) (2021-12-07T08:23:42Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Event-Related Bias Removal for Real-time Disaster Events [67.2965372987723]
ソーシャルメディアは、自然災害や大量攻撃などの危機事象に関する情報を共有する重要なツールとなっている。
有用な情報を含む実行可能なポストを検出するには、大量のデータをリアルタイムに高速に分析する必要がある。
我々は、潜在事象固有のバイアスを除去し、ツイート重要度分類の性能を向上させるために、敵対的ニューラルモデルを訓練する。
論文 参考訳(メタデータ) (2020-11-02T02:03:07Z) - Unsupervised and Interpretable Domain Adaptation to Rapidly Filter
Tweets for Emergency Services [18.57009530004948]
本稿では,TRECインシデントストリームの公開データセットを用いて,危機時に関連するツイートを分類する新しい手法を提案する。
私たちは各タスクに専用の注意層を使用して、モデル解釈可能性を提供しています。
新型コロナウイルスのパンデミックに対するユースケースを提供することで、我々の仕事の実践的な意味を示す。
論文 参考訳(メタデータ) (2020-03-04T06:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。