論文の概要: Nullpointer at CheckThat! 2024: Identifying Subjectivity from Multilingual Text Sequence
- arxiv url: http://arxiv.org/abs/2407.10252v1
- Date: Sun, 14 Jul 2024 15:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 18:49:26.859955
- Title: Nullpointer at CheckThat! 2024: Identifying Subjectivity from Multilingual Text Sequence
- Title(参考訳): CheckThat! 2024:多言語テキストシーケンスから主観性を同定する
- Authors: Md. Rafiul Biswas, Abrar Tasneem Abir, Wajdi Zaghouani,
- Abstract要約: 本研究は、文または段落のテキストシーケンスが主観的か客観的かを決定するために、二分分類タスクに対処する。
タスクはアラビア語、ブルガリア語、英語、ドイツ語、イタリア語の5つの言語にまたがる。
感情に基づくトランスフォーマーモデルであるMarieAngeA13/Sentiment-Analysis-BERTをデータセット上で微調整した。
- 参考スコア(独自算出の注目度): 0.019277430130396667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study addresses a binary classification task to determine whether a text sequence, either a sentence or paragraph, is subjective or objective. The task spans five languages: Arabic, Bulgarian, English, German, and Italian, along with a multilingual category. Our approach involved several key techniques. Initially, we preprocessed the data through parts of speech (POS) tagging, identification of question marks, and application of attention masks. We fine-tuned the sentiment-based Transformer model 'MarieAngeA13/Sentiment-Analysis-BERT' on our dataset. Given the imbalance with more objective data, we implemented a custom classifier that assigned greater weight to objective data. Additionally, we translated non-English data into English to maintain consistency across the dataset. Our model achieved notable results, scoring top marks for the multilingual dataset (Macro F1=0.7121) and German (Macro F1=0.7908). It ranked second for Arabic (Macro F1=0.4908) and Bulgarian (Macro F1=0.7169), third for Italian (Macro F1=0.7430), and ninth for English (Macro F1=0.6893).
- Abstract(参考訳): 本研究は、文または段落のテキストシーケンスが主観的か客観的かを決定するために、二分分類タスクに対処する。
タスクはアラビア語、ブルガリア語、英語、ドイツ語、イタリア語の5つの言語にまたがる。
私たちのアプローチには、いくつかの重要なテクニックが含まれました。
当初は,音声(POS)タグ付け,質問マークの識別,アテンションマスクの適用などを通じて事前処理を行った。
感情に基づくトランスフォーマーモデルであるMarieAngeA13/Sentiment-Analysis-BERTをデータセット上で微調整した。
より客観的なデータとの不均衡を考慮し、目的データに重みを割り当てるカスタム分類器を実装した。
さらに、データセット全体の一貫性を維持するために、非英語データを英語に翻訳しました。
その結果,多言語データセット (Macro F1=0.7121) とドイツ語 (Macro F1=0.7908) のスコアが得られた。
アラビア語(Macro F1=0.4908)とブルガリア語(Macro F1=0.7169)で第2位、イタリア語(Macro F1=0.7430)で第3位、英語(Macro F1=0.6893)で第9位である。
関連論文リスト
- DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - TamilEmo: Finegrained Emotion Detection Dataset for Tamil [0.12583362454189523]
このデータセットは、中立性を含む31の感情をラベル付けした、42k以上のTamil YouTubeコメントの、手動で注釈付けされたデータセットとしては最大である。
このデータセットの目標は、タミルの複数の下流タスクにおける感情検出を改善することである。
論文 参考訳(メタデータ) (2022-02-09T21:05:28Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Multilingual Offensive Language Identification for Low-resource
Languages [3.284443134471233]
低リソース言語で予測を行うために、言語間の文脈的単語埋め込みと転送学習を適用することで、利用可能な英語データセットを活用する。
我々は、アラビア語、ベンガル語、デンマーク語、ギリシャ語、ヒンディー語、スペイン語、トルコ語で比較データに基づいて予測を行う。
すべての言語の結果は、このタスクのためのクロス言語のコンテキスト埋め込みと転送学習の堅牢性を確認します。
論文 参考訳(メタデータ) (2021-05-12T22:50:16Z) - Multilingual Offensive Language Identification with Cross-lingual
Embeddings [20.53592812108394]
我々は、言語間コンテキストの単語埋め込みと伝達学習を適用して利用可能な英語データを利用して、少ないリソースを持つ言語での予測を行う。
我々はベンガル語、ヒンディー語、スペイン語の同値なデータを予測し、ベンガル語で0.8415 F1マクロ、ヒンディー語で0.8568 F1マクロ、スペイン語で0.7513 F1マクロを報告した。
論文 参考訳(メタデータ) (2020-10-11T19:17:24Z) - Cross-Lingual Transfer Learning for Complex Word Identification [0.3437656066916039]
複合単語識別(CWI)は、テキスト中の難解な単語を検出することに焦点を当てたタスクである。
我々のアプローチでは、自然言語処理(NLP)タスクのための最先端のソリューションとともに、ゼロショット、ワンショット、および少数ショットの学習技術を使用します。
本研究の目的は,多言語環境下で複雑な単語の特徴を学習できることを示すことである。
論文 参考訳(メタデータ) (2020-10-02T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。