論文の概要: BanglaNLP at BLP-2023 Task 1: Benchmarking different Transformer Models
for Violence Inciting Text Detection in Bengali
- arxiv url: http://arxiv.org/abs/2310.10781v1
- Date: Mon, 16 Oct 2023 19:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 19:06:20.241901
- Title: BanglaNLP at BLP-2023 Task 1: Benchmarking different Transformer Models
for Violence Inciting Text Detection in Bengali
- Title(参考訳): BLP-2023タスク1におけるBanglaNLP:ベンガルにおける暴力的テキスト検出のための異なるトランスフォーマーモデルのベンチマーク
- Authors: Saumajit Saha and Albert Nanda
- Abstract要約: 本稿では,バングラでテキスト検出を誘発する暴力行為における,この共有課題を解決するために開発したシステムについて述べる。
私たちは、従来のアプローチと最近のアプローチの両方を説明して、モデルを学習させました。
提案システムでは,テキストに脅威があるかどうかを分類する。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the system that we have developed while solving this
shared task on violence inciting text detection in Bangla. We explain both the
traditional and the recent approaches that we have used to make our models
learn. Our proposed system helps to classify if the given text contains any
threat. We studied the impact of data augmentation when there is a limited
dataset available. Our quantitative results show that finetuning a
multilingual-e5-base model performed the best in our task compared to other
transformer-based architectures. We obtained a macro F1 of 68.11\% in the test
set and our performance in this shared task is ranked at 23 in the leaderboard.
- Abstract(参考訳): 本稿では,バングラデシュにおける暴力に関する共通課題を解決するために開発したシステムについて述べる。
私たちは、モデルを学ぶのに使った従来のアプローチと最近のアプローチの両方を説明します。
提案システムでは,テキストに脅威があるかどうかを分類する。
利用可能なデータセットが限られている場合、データ拡張の影響を調査した。
定量的には,多言語e5ベースモデルの微調整が,他のトランスフォーマーベースのアーキテクチャと比較して優れた性能を示した。
我々は、テストセットで68.11\%のマクロF1を取得し、この共有タスクのパフォーマンスは、リーダーボードで23にランク付けした。
関連論文リスト
- Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification [0.0]
世界で7番目に話されている言語であるバングラ語における自動文法チェッカーの開発について検討する。
本手法では,トークン分類問題としてタスクを分割し,最先端のトランスフォーマーモデルを活用する。
本システムは,様々な情報源から得られた25,000以上のテキストからなるデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-11-13T05:22:45Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Mavericks at BLP-2023 Task 1: Ensemble-based Approach Using Language
Models for Violence Inciting Text Detection [0.0]
ソーシャルメディアは、社会における憎しみや暴力的な発言の伝播を加速させてきた。
少ない研究と少ないデータにより、低リソース環境では、暴力を誘発するテキストを検出する問題がさらに悪化する。
本稿では,バングラ語処理に関する第1回ワークショップにおいて,Volence Inciting Text Detection共有タスクについて紹介する。
論文 参考訳(メタデータ) (2023-11-30T18:23:38Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - UPB at IberLEF-2023 AuTexTification: Detection of Machine-Generated Text
using Transformer Ensembles [0.5324802812881543]
本稿では, UPB チームによる AuTexTification 共有タスクへのソリューションとして, IberleF-2023 の一部として紹介する。
我々の最高のパフォーマンスモデルは、英語データセットで66.63%、スペイン語データセットで67.10%のマクロF1スコアを達成した。
論文 参考訳(メタデータ) (2023-08-02T20:08:59Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。