Fugu-MT 論文翻訳(概要): UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages

論文の概要: UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages

arxiv url: http://arxiv.org/abs/2304.14189v1
Date: Thu, 27 Apr 2023 13:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 13:21:02.738317
Title: UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages
Title（参考訳）: UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment classification in low-resource languages
Authors: Egil R{\o}nningstad
Abstract要約: 本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our contribution to the 2023 AfriSenti-SemEval shared task 12: Sentiment Analysis for African Languages, provides insight into how a multilingual large language model can be a resource for sentiment analysis in languages not seen during pretraining. The shared task provides datasets of a variety of African languages from different language families. The languages are to various degrees related to languages used during pretraining, and the language data contain various degrees of code-switching. We experiment with both monolingual and multilingual datasets for the final fine-tuning, and find that with the provided datasets that contain samples in the thousands, monolingual fine-tuning yields the best results.
Abstract（参考訳）: 2023 afrisenti-semeval shared task 12: sentiment analysis for african languages(アフリカ言語に対する感情分析)に対する我々の貢献は、多言語大言語モデルが、事前学習中に見ることができない言語における感情分析のリソースとしてどのように役立つかについての洞察を提供する。共有タスクは、異なる言語ファミリーから様々なアフリカの言語のデータセットを提供する。言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。

関連論文リスト

Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。異なる言語群に対する学習がいかに異なるかを検討する。私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-01-09T10:26:14Z)
Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文参考訳（メタデータ） (2024-02-03T10:41:05Z)
GradSim: Gradient-Based Language Grouping for Effective Multilingual Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。 3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文参考訳（メタデータ） (2023-10-23T18:13:37Z)
SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。 SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文参考訳（メタデータ） (2023-09-14T05:56:49Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
DN at SemEval-2023 Task 12: Low-Resource Language Text Classification via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。 AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文参考訳（メタデータ） (2023-05-04T07:28:45Z)
NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language Selection for Low-Resource Multilingual Sentiment Analysis [11.05909046179595]
本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
論文参考訳（メタデータ） (2023-04-28T21:02:58Z)
Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。 18の言語にまたがるアドホック検索に焦点を当てている。我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文参考訳（メタデータ） (2022-10-18T16:47:18Z)
Multilingual transfer of acoustic word embeddings improves when training on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文参考訳（メタデータ） (2021-06-24T08:37:05Z)
How Good is Your Tokenizer? On the Monolingual Performance of Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文参考訳（メタデータ） (2020-12-31T14:11:00Z)
XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。 XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文参考訳（メタデータ） (2020-04-03T07:03:12Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。