論文の概要: Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
- arxiv url: http://arxiv.org/abs/2604.09625v1
- Date: Wed, 18 Mar 2026 13:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.570782
- Title: Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations
- Title(参考訳): WebスケールデータとLLMアノテーションを組み込んだ汎用言語言語検出に向けて
- Authors: Dang H. Dang, Jelena Mitrovi, Michael Granitzer,
- Abstract要約: 大規模ウェブデータとLLMに基づく合成アノテーションが多言語ヘイトスピーチの検出に有効かどうかを検討する。
我々は、未実装の OWS テキスト上でのマスキングを継続することにより、BERT モデルに事前学習を継続する。
その結果,標準ベースラインよりも平均的なマクロF1ゲインが約3%向上することがわかった。
- 参考スコア(独自算出の注目度): 1.3912467776690247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether large-scale unlabelled web data and LLM-based synthetic annotations can improve multilingual hate speech detection. Starting from texts crawled via OpenWebSearch.eu~(OWS) in four languages (English, German, Spanish, Vietnamese), we pursue two complementary strategies. First, we apply continued pre-training to BERT models by continuing masked language modelling on unlabelled OWS texts before supervised fine-tuning, and show that this yields an average macro-F1 gain of approximately 3% over standard baselines across sixteen benchmarks, with stronger gains in low-resource settings. Second, we use four open-source LLMs (Mistral-7B, Llama3.1-8B, Gemma2-9B, Qwen2.5-14B) to produce synthetic annotations through three ensemble strategies: mean averaging, majority voting, and a LightGBM meta-learner. The LightGBM ensemble consistently outperforms the other strategies. Fine-tuning on these synthetic labels substantially benefits a small model (Llama3.2-1B: +11% pooled F1), but provides only a modest gain for the larger Qwen2.5-14B (+0.6%). Our results indicate that the combination of web-scale unlabelled data and LLM-ensemble annotations is the most valuable for smaller models and low-resource languages.
- Abstract(参考訳): 大規模ウェブデータとLLMに基づく合成アノテーションが多言語ヘイトスピーチの検出に有効かどうかを検討する。
OpenWebSearch.eu~(OWS)を4つの言語(英語、ドイツ語、スペイン語、ベトナム語)でクロールしたテキストから始め、我々は2つの補完戦略を追求する。
まず,階層化されていない OWS テキスト上でのマスク付き言語モデリングを継続することにより,BERT モデルへの事前学習を継続して実施し,この結果から,ベンチマークベンチマークにおける標準ベースラインよりも平均 3% のマクロF1 ゲインが得られることを示す。
第2に、4つのオープンソースLCM(Mistral-7B, Llama3.1-8B, Gemma2-9B, Qwen2.5-14B)を使用して、3つのアンサンブル戦略により合成アノテーションを生成する。
LightGBMアンサンブルは、他の戦略よりも一貫して優れています。
これらの合成ラベルの微調整は、小さなモデル(Llama3.2-1B: +11%プールされたF1)に実質的に恩恵を与えるが、より大型のQwen2.5-14B(+0.6%)に対してわずかに利益を与えるだけである。
この結果から,Web スケールのアンラベリングデータと LLM アンサンブルアノテーションの組み合わせは,より小さなモデルや低リソース言語にとって最も有用であることが示唆された。
関連論文リスト
- Bilingual Text-to-Motion Generation: A New Benchmark and Baselines [52.71312720094036]
LLMアノテーションと厳密な手動修正によって構築されたバイリンガルテキスト・モーション・ベンチマークであるBiHumanML3Dを紹介する。
また,CLA(Cross-Lingual Alignment)を用いたバイリンガルモーション拡散合成(BiMD)を提案する。
CLA を用いた BiMD は 0.045 対 0.169 対 R@3 対 80.8% の FID を達成し、単言語拡散モデルと BiHumanML3D の翻訳ベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-03-26T08:48:27Z) - propella-1: Multi-Property Document Annotation for LLM Data Curation at Scale [0.10888485668490162]
シングルスコアは複数の品質次元を膨らませ、フレキシブルなフィルタリングを防止し、解釈性を提供しない。
我々は18のプロパティにまたがる文書を6つのカテゴリにアノテートする小さな多言語LLMのファミリーであるpropella-1を紹介した。
我々は、FinWeb-2、FinPDFs、HPLT 3.0、Nemotron-CCのデータを含む、主要な事前学習コーパスをカバーする30億以上のドキュメントアノテーションのデータセットをリリースする。
論文 参考訳(メタデータ) (2026-02-12T21:13:08Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking [6.070192392563392]
1b と 3b のパラメータサイズで利用可能な,最初の大規模事前訓練型 Bangla LLM である TituLLM を提案する。
TituLLMsをトレーニングするために、約37億トークンの事前トレーニングデータセットを収集しました。
我々はLlama-3.2トークンを言語や文化固有の知識に組み込むように拡張した。
論文 参考訳(メタデータ) (2025-02-16T16:22:23Z) - On Limitations of LLM as Annotator for Low Resource Languages [0.4194295877935868]
低リソース言語は、教師付き学習、アノテーション、分類といったタスクのための十分な言語データ、リソース、ツールが不足しているため、重大な課題に直面している。
このギャップを埋めるために、Large Language Models (LLM) は潜在的なアノテータの機会を提供する。
論文 参考訳(メタデータ) (2024-11-26T17:55:37Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - A Guide To Effectively Leveraging LLMs for Low-Resource Text Summarization: Data Augmentation and Semi-supervised Approaches [12.582774521907227]
低リソーステキスト要約のための既存のアプローチは、主に推論時に大きな言語モデル(LLM)を使用して要約を直接生成する。
低リソーステキスト要約に LLM を効果的に活用する2つの新しい手法を提案する: 1) LLM ベースのデータ拡張方式である MixSumm と、(2) PPSL は、サンプル効率の半教師付きテキスト要約のための即時的な擬似ラベル方式である。
論文 参考訳(メタデータ) (2024-07-10T03:25:47Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。