論文の概要: Comparative Study of Zero-Shot Cross-Lingual Transfer for Bodo POS and NER Tagging Using Gemini 2.0 Flash Thinking Experimental Model
- arxiv url: http://arxiv.org/abs/2503.04405v1
- Date: Thu, 06 Mar 2025 12:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:14.276229
- Title: Comparative Study of Zero-Shot Cross-Lingual Transfer for Bodo POS and NER Tagging Using Gemini 2.0 Flash Thinking Experimental Model
- Title(参考訳): Gemini 2.0フラッシュシンキング実験モデルを用いたボドPOSとNERタグのゼロショットクロスリンガル転送の比較検討
- Authors: Sanjib Narzary, Bihung Brahma, Haradip Mahilary, Mahananda Brahma, Bidisha Som, Sukumar Nandi,
- Abstract要約: 本稿では,Google の Gemini 2.0 Flash Thinking Experiment モデルによる POS および NER タグの Bodo へのゼロショット言語間転送の有効性について検討する。
本研究では,(1) 英文のボドへの直接翻訳,(2) 英文-ボド語文のパラレル化によるタグ転送,の2つの方法について検討する。
いずれの手法もボドNLPのブートストラップが期待できるが,プロンプトベース転送は特にNERにおいて優れた性能を示した。
- 参考スコア(独自算出の注目度): 1.7417276963535178
- License:
- Abstract: Named Entity Recognition (NER) and Part-of-Speech (POS) tagging are critical tasks for Natural Language Processing (NLP), yet their availability for low-resource languages (LRLs) like Bodo remains limited. This article presents a comparative empirical study investigating the effectiveness of Google's Gemini 2.0 Flash Thinking Experiment model for zero-shot cross-lingual transfer of POS and NER tagging to Bodo. We explore two distinct methodologies: (1) direct translation of English sentences to Bodo followed by tag transfer, and (2) prompt-based tag transfer on parallel English-Bodo sentence pairs. Both methods leverage the machine translation and cross-lingual understanding capabilities of Gemini 2.0 Flash Thinking Experiment to project English POS and NER annotations onto Bodo text in CONLL-2003 format. Our findings reveal the capabilities and limitations of each approach, demonstrating that while both methods show promise for bootstrapping Bodo NLP, prompt-based transfer exhibits superior performance, particularly for NER. We provide a detailed analysis of the results, highlighting the impact of translation quality, grammatical divergences, and the inherent challenges of zero-shot cross-lingual transfer. The article concludes by discussing future research directions, emphasizing the need for hybrid approaches, few-shot fine-tuning, and the development of dedicated Bodo NLP resources to achieve high-accuracy POS and NER tagging for this low-resource language.
- Abstract(参考訳): 名前付きエンティティ認識(NER)とPOS(Part-of-Speech)タグ付けは自然言語処理(NLP)にとって重要なタスクであるが、Bodoのような低リソース言語(LRL)での利用は制限されている。
本稿では,Google の Gemini 2.0 Flash Thinking Experiment モデルによる POS と NER タグの Bodo へのゼロショット相互変換の有効性を比較検討する。
そこで本研究では,(1) 英文のボドへの直接翻訳,(2) 英文-ボド文のパラレル化によるタグ転送,の2つの方法について検討する。
どちらの手法も、Gmini 2.0 Flash Thinking Experimentの機械翻訳と言語間理解機能を利用して、英語のPOSとNERアノテーションをConLL-2003形式でBodoテキストに投影する。
いずれの手法もボドNLPのブートストラップが期待できるが,プロンプトベース転送は特にNERにおいて優れた性能を示した。
本報告では, 翻訳品質, 文法的相違, ゼロショット・クロスランガル翻訳の固有の課題について, 結果の詳細な分析を行う。
この記事は、ハイブリッドアプローチの必要性、数発の微調整、そして、この低リソース言語に対する高精度POSとNERタグ付けを実現するための専用のBodo NLPリソースの開発を強調しながら、今後の研究方向性について議論することで締めくくっている。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - Part-of-Speech Tagger for Bodo Language using Deep Learning approach [2.168848255038874]
最初に、Bodo言語のための言語モデルであるBodoBERTを提示する。
次に,Bodo 用の DL ベースの POS タグ付けモデルを提案する。
ベストパフォーマンスモデルはF1スコア0.8041に達する。
論文 参考訳(メタデータ) (2024-01-06T09:37:56Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Improving Zero-shot Multilingual Neural Machine Translation by
Leveraging Cross-lingual Consistency Regularization [46.09132547431629]
多言語ニューラルマシン翻訳(NMT)モデルは、ゼロショット翻訳の有望な能力を有する。
本稿では,異なる言語間の表現ギャップを埋めるために,言語間整合性正規化(CrossConST)を提案する。
論文 参考訳(メタデータ) (2023-05-12T08:32:18Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - DualNER: A Dual-Teaching framework for Zero-shot Cross-lingual Named
Entity Recognition [27.245171237640502]
DualNERは、注釈付きソース言語コーパスとラベルなしターゲット言語テキストの両方をフル活用するためのフレームワークである。
NERの2つの相補的な学習パラダイム、すなわちシーケンスラベリングとスパン予測を統合マルチタスクフレームワークに統合する。
論文 参考訳(メタデータ) (2022-11-15T12:50:59Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Towards Multi-Sense Cross-Lingual Alignment of Contextual Embeddings [41.148892848434585]
本稿では,バイリンガル辞書からのクロスリンガル信号のみを活用して,文脈埋め込みを感覚レベルで整列する新しい枠組みを提案する。
我々はまず,単語感覚を明示的にモデル化するために,新しい感覚認識型クロスエントロピー損失を提案する。
次に,言語間モデル事前学習のための感覚認識型クロスエントロピー損失と,複数の言語対に対する事前訓練型クロス言語モデルの上に,感覚アライメントの目的を提案する。
論文 参考訳(メタデータ) (2021-03-11T04:55:35Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。