論文の概要: FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2512.13884v1
- Date: Mon, 15 Dec 2025 20:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.485182
- Title: FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition
- Title(参考訳): FiNERweb: スケーラブルな多言語名前付きエンティティ認識のためのデータセットとアーティファクト
- Authors: Jonas Golde, Patrick Haller, Alan Akbik,
- Abstract要約: 教師/学生のパラダイムを91言語と25のスクリプトに拡張するデータセット生成パイプラインであるFiNERwebを紹介した。
FineWeb-Edu 上に構築した手法では,回帰モデルを用いて NER 関連パスを識別し,多言語 LLM でアノテートする。
実験の結果, 回帰モデルは84F1以上を達成でき, また, FiNERwebでトレーニングしたモデルでは, ゼロショット転送設定で同等あるいは改善された性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 12.125413756152833
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent multilingual named entity recognition (NER) work has shown that large language models (LLMs) can provide effective synthetic supervision, yet such datasets have mostly appeared as by-products of broader experiments rather than as systematic, reusable resources. We introduce FiNERweb, a dataset-creation pipeline that scales the teacher-student paradigm to 91 languages and 25 scripts. Building on FineWeb-Edu, our approach trains regression models to identify NER-relevant passages and annotates them with multilingual LLMs, resulting in about 225k passages with 235k distinct entity labels. Our experiments show that the regression model achieves more than 84 F1, and that models trained on FiNERweb obtain comparable or improved performance in zero shot transfer settings on English, Thai, and Swahili, despite being trained on 19x less data than strong baselines. In addition, we assess annotation quality using LLM-as-a-judge and observe consistently high scores for both faithfulness (3.99 out of 5) and completeness (4.05 out of 5), indicating reliable and informative annotations. Further, we release the dataset with both English labels and translated label sets in the respective target languages because we observe that the performance of current state-of-the-art models drops by 0.02 to 0.09 F1 when evaluated using target language labels instead of English ones. We release FiNERweb together with all accompanying artifacts to the research community in order to facilitate more effective student-teacher training for multilingual named entity recognition.
- Abstract(参考訳): 近年の多言語名前付きエンティティ認識(NER)の研究は、大きな言語モデル(LLM)が効果的な合成監督を提供することを示したが、そのようなデータセットは、体系的で再利用可能なリソースとしてではなく、より広範な実験の副産物として現れてきた。
教師/学生のパラダイムを91言語と25のスクリプトに拡張するデータセット生成パイプラインであるFiNERwebを紹介した。
FineWeb-Eduをベースとした本手法では, 回帰モデルを用いてNER関連パスを識別し, 多言語 LLM でアノテートし, 約225k のパスと235k のエンティティラベルを持つ。
実験の結果, 回帰モデルは84F1以上を達成でき, 強いベースラインよりも19倍少ないデータでトレーニングされているにもかかわらず, 英語, タイ語, スワヒリ語におけるゼロショット転送設定において, FiNERwebでトレーニングしたモデルは同等あるいは改善された性能が得られることがわかった。
さらに,LCM-as-a-judgeを用いてアノテーションの品質を評価し,信頼度(5点中3.99点)と完全度(5点中4.05点)の両点について一貫した高いスコアを観察し,信頼性と情報的アノテーションを示す。
さらに,現在最先端モデルの性能が,英語ではなく対象言語ラベルを用いて評価した場合,0.02から0.09F1に低下するのを観察するため,各対象言語における英語ラベルと翻訳されたラベルセットを併用したデータセットをリリースする。
我々はFiNERwebと付随するすべてのアーティファクトを研究コミュニティにリリースし、より効果的な学生-教師のトレーニングを多言語対応のエンティティ認識に役立てる。
関連論文リスト
- LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data [5.021795689551854]
LESS (Large Language Model Enhanced Semi-supervised Learning) は、Large Language Models (LLMs) を用いて、アプリ内で生成された擬似ラベルを補正する汎用的なフレームワークである。
マンダリンASRとスペイン語と英語のAST評価で、LESSは一貫して利益を上げている。
私たちはこのレシピをオープンソースとしてリリースし、この分野のさらなる研究を支援しています。
論文 参考訳(メタデータ) (2025-06-05T03:00:04Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Translation and Fusion Improves Zero-shot Cross-lingual Information Extraction [18.926993352330797]
本稿では,低リソース言語データの英語翻訳をモデルに微調整したフレームワークであるTransFusionを提案する。
GoLLIE-TFは、IEタスクのための言語間命令チューニング LLM であり、ハイソース言語と低リソース言語のパフォーマンスギャップを埋めるように設計されている。
論文 参考訳(メタデータ) (2023-05-23T01:23:22Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - A Dual-Contrastive Framework for Low-Resource Cross-Lingual Named Entity
Recognition [5.030581940990434]
クロスランガルな名前付きエンティティ認識(NER)は、低リソース言語におけるデータ空白問題を緩和できるため、最近研究ホットスポットになっている。
本稿では,言語間NERのための2言語コントラストフレームワーク ConCNER について述べる。
論文 参考訳(メタデータ) (2022-04-02T07:59:13Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。