論文の概要: Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository
- arxiv url: http://arxiv.org/abs/2410.11291v1
- Date: Tue, 15 Oct 2024 05:26:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:04:09.508606
- Title: Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository
- Title(参考訳): Assamese NLP機能強化 - 集中型データセットリポジトリの導入
- Authors: S. Tamang, D. J. Bora,
- Abstract要約: 本稿では,Assamese 用 NLP と NMT の高速化を目的とした,集中型オープンソースデータセットリポジトリを提案する。
このリポジトリは、プレトレーニングと微調整のコーパスを提供することで、感情分析、名前付きエンティティ認識、機械翻訳といった様々なタスクをサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a centralized, open-source dataset repository designed to advance NLP and NMT for Assamese, a low-resource language. The repository supports various tasks like sentiment analysis, named entity recognition, and machine translation by providing both pre-training and fine-tuning corpora. We review existing datasets, highlighting the need for standardized resources in Assamese NLP, and discuss potential applications in AI-driven research, such as LLMs, OCR, and chatbots. While promising, challenges like data scarcity and linguistic diversity remain. The repository aims to foster collaboration and innovation, promoting Assamese language research in the digital age.
- Abstract(参考訳): 本稿では,低リソース言語 Assamese のための NLP と NMT の推進を目的とした,集中型オープンソースデータセットリポジトリを提案する。
このリポジトリは、プレトレーニングと微調整のコーパスを提供することで、感情分析、名前付きエンティティ認識、機械翻訳といった様々なタスクをサポートする。
我々は、既存のデータセットをレビューし、Assamese NLPの標準化されたリソースの必要性を強調し、LLM、OCR、チャットボットといったAI駆動リサーチの潜在的な応用について論じる。
有望ではあるが、データの不足や言語的多様性といった課題は残っている。
このリポジトリは、デジタル時代のアサメ語研究を推進し、コラボレーションとイノベーションを促進することを目的としている。
関連論文リスト
- WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。
我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文 参考訳(メタデータ) (2025-01-24T14:06:29Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - SwaQuAD-24: QA Benchmark Dataset in Swahili [0.0]
本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。
このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。
データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
論文 参考訳(メタデータ) (2024-10-18T08:49:24Z) - EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。
また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。
トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文 参考訳(メタデータ) (2024-03-28T12:26:45Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。
ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。
このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T10:33:03Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。