論文の概要: ClassBases at CASE-2022 Multilingual Protest Event Detection Tasks:
Multilingual Protest News Detection and Automatically Replicating Manually
Created Event Datasets
- arxiv url: http://arxiv.org/abs/2301.06617v1
- Date: Mon, 16 Jan 2023 21:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:11:57.860799
- Title: ClassBases at CASE-2022 Multilingual Protest Event Detection Tasks:
Multilingual Protest News Detection and Automatically Replicating Manually
Created Event Datasets
- Title(参考訳): case-2022多言語抗議イベント検出タスクにおけるクラスベース:多言語抗議ニュースの検出と手作業によるイベントデータセットの自動複製
- Authors: Peratham Wiriyathammabhum
- Abstract要約: 私たちは、多言語モデルをトレーニングするために提供されるすべての言語からのトレーニングデータの組み合わせを使用します。
手動で作成したイベントデータセットを自動的に複製するために、New York Timesのニュースコーパスから、新型コロナウイルス関連の抗議イベントに参加した。
私たちは、クロールしたデータを抗議イベントのデータセットに処理するシステムを作成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this report, we describe our ClassBases submissions to a shared task on
multilingual protest event detection. For the multilingual protest news
detection, we participated in subtask-1, subtask-2, and subtask-4, which are
document classification, sentence classification, and token classification. In
subtask-1, we compare XLM-RoBERTa-base, mLUKE-base, and XLM-RoBERTa-large on
finetuning in a sequential classification setting. We always use a combination
of the training data from every language provided to train our multilingual
models. We found that larger models seem to work better and entity knowledge
helps but at a non-negligible cost. For subtask-2, we only submitted an
mLUKE-base system for sentence classification. For subtask-4, we only submitted
an XLM-RoBERTa-base for token classification system for sequence labeling. For
automatically replicating manually created event datasets, we participated in
COVID-related protest events from the New York Times news corpus. We created a
system to process the crawled data into a dataset of protest events.
- Abstract(参考訳): 本稿では,多言語抗議イベント検出における共有タスクに対するクラスベースの提案について述べる。
多言語対応ニュースの検出には,文書分類,文分類,トークン分類であるsubtask-1,subtask-2,subtask-4を用いた。
subtask-1では、連続的な分類設定で微調整において、XLM-RoBERTa-base、mLUKE-base、XLM-RoBERTa-largeを比較した。
私たちは常に、多言語モデルのトレーニングに提供されるすべての言語からのトレーニングデータの組み合わせを使っています。
より大きなモデルはうまく機能し、エンティティの知識は、無視できないコストで役立ちます。
subtask-2では文分類のためのmlukeベースシステムのみを提出した。
サブタスク4では,シーケンスラベリングのためのトークン分類システムのためのXLM-RoBERTaベースのみを提出した。
手動で作成したイベントデータセットを自動的に複製するために、New York Timesのニュースコーパスから、新型コロナウイルス関連の抗議イベントに参加した。
私たちは、クロールしたデータを抗議イベントのデータセットに処理するシステムを作成しました。
関連論文リスト
- CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval [5.97515243922116]
本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
論文 参考訳(メタデータ) (2023-10-25T10:22:49Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - MTOP: A Comprehensive Multilingual Task-Oriented Semantic Parsing
Benchmark [31.91964553419665]
我々はMTOPと呼ばれる新しい多言語データセットを提案し、11ドメインの6言語で100kの注釈付き発話を合成する。
既存の2つの多言語データセットに対して、Slot F1上の+6.3ポイントの平均的な改善を、実験で報告された最良の結果よりも達成する。
本稿では,事前学習モデルと自動翻訳とアライメントを組み合わせたゼロショット性能と,スロットラベル投影におけるノイズ低減のための遠隔監視手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T07:02:11Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。