論文の概要: FastPOS: Language-Agnostic Scalable POS Tagging Framework Low-Resource Use Case
- arxiv url: http://arxiv.org/abs/2512.00745v1
- Date: Sun, 30 Nov 2025 05:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.394854
- Title: FastPOS: Language-Agnostic Scalable POS Tagging Framework Low-Resource Use Case
- Title(参考訳): FastPOS: 言語に依存しないスケーラブルなPOSタグフレームワーク 低リソースユースケース
- Authors: Md Abdullah Al Kafi, Sumit Kumar Banshal,
- Abstract要約: このフレームワークは、バングラとヒンディーのPOSカテゴリ全体で96.85パーセントと97%のトークンレベルの精度を実現している。
モジュラーおよびオープンソース設計は、モデル設計とチューニングオーバーヘッドを低減しつつ、言語間の迅速な適応を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes a language-agnostic transformer-based POS tagging framework designed for low-resource languages, using Bangla and Hindi as case studies. With only three lines of framework-specific code, the model was adapted from Bangla to Hindi, demonstrating effective portability with minimal modification. The framework achieves 96.85 percent and 97 percent token-level accuracy across POS categories in Bangla and Hindi while sustaining strong F1 scores despite dataset imbalance and linguistic overlap. A performance discrepancy in a specific POS category underscores ongoing challenges in dataset curation. The strong results stem from the underlying transformer architecture, which can be replaced with limited code adjustments. Its modular and open-source design enables rapid cross-lingual adaptation while reducing model design and tuning overhead, allowing researchers to focus on linguistic preprocessing and dataset refinement, which are essential for advancing NLP in underrepresented languages.
- Abstract(参考訳): 本研究では,Bangla と Hindi をケーススタディとして,低リソース言語用に設計された言語に依存しない変換型POSタグフレームワークを提案する。
フレームワーク固有の3行のコードだけで、モデルはBanglaからHindiに適応し、最小限の変更で効果的なポータビリティを実証した。
このフレームワークは、データセットの不均衡と言語的重複にもかかわらず強力なF1スコアを維持しながら、バングラとヒンディーのPOSカテゴリ全体で96.85パーセントと97%のトークンレベルの精度を達成した。
特定のPOSカテゴリのパフォーマンスの相違は、データセットのキュレーションにおいて進行中の課題を浮き彫りにする。
強力な結果は、コード調整の制限によって置き換えられる、基盤となるトランスフォーマーアーキテクチャに起因している。
モジュラー設計とオープンソース設計により、モデル設計とチューニングオーバーヘッドを低減しつつ、迅速な言語間適応が可能となり、研究者は言語前処理とデータセットの改良に集中することができる。
関連論文リスト
- Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。
ベンガルのNLP性能を阻害する課題を系統的に検討する。
ベンガル語では英語と比較して一貫した性能差がみられた。
論文 参考訳(メタデータ) (2025-07-31T05:16:43Z) - PARAM-1 BharatGen 2.9B Model [14.552007884700618]
PARAM-1は2.9Bパラメータデコーダのみのテキストのみの言語モデルである。
25%のコーパス割り当てによるIndic言語の公平な表現、インドの形態的構造に適合したSentencePieceトークン化によるトークン化公正性、IndicQA全体にわたる文化的に整合した評価ベンチマーク、コード混合推論、社会言語的堅牢性タスクである。
論文 参考訳(メタデータ) (2025-07-16T06:14:33Z) - Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。
ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-15T13:33:54Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - A Continuous Space Neural Language Model for Bengali Language [0.4799822253865053]
本稿では, 連続空間ニューラル言語モデル, より具体的にはASGD重量減少型LSTM言語モデル, およびベンガル語で効率的に学習する手法を提案する。
提案したアーキテクチャは、ベンガルの保持されたデータセットにおいて、推論の難易度を51.2まで低くすることで、それよりも優れている。
論文 参考訳(メタデータ) (2020-01-11T14:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。