論文の概要: Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2509.02514v1
- Date: Tue, 02 Sep 2025 17:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.117812
- Title: Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition
- Title(参考訳): コード混合名前付きエンティティ認識のための事前学習BERTと大規模言語モデルの比較検討
- Authors: Mayur Shirke, Amey Shembade, Pavan Thorat, Madhushri Wagh, Raviraj Joshi,
- Abstract要約: 本研究では,コード混合微調整モデルと非コード混合多言語モデルの比較評価を行う。
具体的には、HingBERT、HingMBERT、HingRoBERTa(コード混合データで学習)、BERT Base Cased、IndicBERT、RoBERTa、MuRIL(非コード混合多言語データで学習)を評価した。
また、NERタグを削除したデータセットの修正版を使用して、ゼロショット設定でGoogle Geminiのパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 2.584263027095689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named Entity Recognition (NER) in code-mixed text, particularly Hindi-English (Hinglish), presents unique challenges due to informal structure, transliteration, and frequent language switching. This study conducts a comparative evaluation of code-mixed fine-tuned models and non-code-mixed multilingual models, along with zero-shot generative large language models (LLMs). Specifically, we evaluate HingBERT, HingMBERT, and HingRoBERTa (trained on code-mixed data), and BERT Base Cased, IndicBERT, RoBERTa and MuRIL (trained on non-code-mixed multilingual data). We also assess the performance of Google Gemini in a zero-shot setting using a modified version of the dataset with NER tags removed. All models are tested on a benchmark Hinglish NER dataset using Precision, Recall, and F1-score. Results show that code-mixed models, particularly HingRoBERTa and HingBERT-based fine-tuned models, outperform others - including closed-source LLMs like Google Gemini - due to domain-specific pretraining. Non-code-mixed models perform reasonably but show limited adaptability. Notably, Google Gemini exhibits competitive zero-shot performance, underlining the generalization strength of modern LLMs. This study provides key insights into the effectiveness of specialized versus generalized models for code-mixed NER tasks.
- Abstract(参考訳): コードミキシングテキスト、特にヒンディー語(ヒングリッシュ)で名前付けられたエンティティ認識(NER)は、非公式な構造、音訳、頻繁な言語スイッチングによる固有の課題を提示する。
本研究は、ゼロショット生成大言語モデル(LLM)とともに、コードミキシング細調整モデルと非コードミキシング多言語モデルの比較評価を行う。
具体的には、HingBERT、HingMBERT、HingRoBERTa(コード混合データ)、BERT Base Cased、IndicBERT、RoBERTa、MuRIL(非コード混合多言語データ)を評価した。
また、NERタグを削除したデータセットの修正版を使用して、ゼロショット設定でGoogle Geminiのパフォーマンスを評価する。
すべてのモデルは、Precision、Recall、F1スコアを使用して、ベンチマークHinglish NERデータセットでテストされる。
結果として、コードミックスモデル、特にHingRoBERTaとHingBERTベースの微調整モデルは、ドメイン固有の事前トレーニングのため、Google GeminiのようなクローズドソースのLLMなど、他のモデルよりも優れています。
非符号混合モデルは合理的に実行するが、適応性は限定的である。
特に、Google Geminiは競争力のあるゼロショット性能を示し、現代のLLMの一般化の強みを浮き彫りにしている。
本研究は、コード混合NERタスクにおける特殊モデルと一般化モデルの有効性に関する重要な知見を提供する。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - From Human Judgements to Predictive Models: Unravelling Acceptability in Code-Mixed Sentences [18.53327811304381]
Clineは、イングリッシュ・ヒンディー語(en-hi)のコード混合テキストに対する人間の受容性を含むデータセットである。
Clineは16,642の文で、合成生成されたコードミックステキストとオンラインソーシャルメディアから収集されたサンプルという2つのソースからのサンプルで構成されている。
我々の分析は、CMIやスイッチポイント数、Burstinesなどの一般的なコード混合メトリクスは、コード混合コーパスをフィルタリング/コンパイルするのに使われ、人間の受け入れ可能性との相関が低く、データセットの必要性の基盤となっていることを証明している。
論文 参考訳(メタデータ) (2024-05-09T06:40:39Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。