Fugu-MT 論文翻訳(概要): Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository

論文の概要: Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository

arxiv url: http://arxiv.org/abs/2410.11291v1
Date: Tue, 15 Oct 2024 05:26:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.634943
Title: Enhancing Assamese NLP Capabilities: Introducing a Centralized Dataset Repository
Title（参考訳）: Assamese NLP機能強化 - 集中型データセットリポジトリの導入
Authors: S. Tamang, D. J. Bora,
Abstract要約: 本稿では,Assamese 用 NLP と NMT の高速化を目的とした,集中型オープンソースデータセットリポジトリを提案する。このリポジトリは、プレトレーニングと微調整のコーパスを提供することで、感情分析、名前付きエンティティ認識、機械翻訳といった様々なタスクをサポートする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a centralized, open-source dataset repository designed to advance NLP and NMT for Assamese, a low-resource language. The repository supports various tasks like sentiment analysis, named entity recognition, and machine translation by providing both pre-training and fine-tuning corpora. We review existing datasets, highlighting the need for standardized resources in Assamese NLP, and discuss potential applications in AI-driven research, such as LLMs, OCR, and chatbots. While promising, challenges like data scarcity and linguistic diversity remain. The repository aims to foster collaboration and innovation, promoting Assamese language research in the digital age.
Abstract（参考訳）: 本稿では,低リソース言語 Assamese のための NLP と NMT の推進を目的とした,集中型オープンソースデータセットリポジトリを提案する。このリポジトリは、プレトレーニングと微調整のコーパスを提供することで、感情分析、名前付きエンティティ認識、機械翻訳といった様々なタスクをサポートする。我々は、既存のデータセットをレビューし、Assamese NLPの標準化されたリソースの必要性を強調し、LLM、OCR、チャットボットといったAI駆動リサーチの潜在的な応用について論じる。有望ではあるが、データの不足や言語的多様性といった課題は残っている。このリポジトリは、デジタル時代のアサメ語研究を推進し、コラボレーションとイノベーションを促進することを目的としている。

関連論文リスト

SenWiCh: Sense-Annotation of Low-Resource Languages for WiC using Hybrid Methods [1.2091341579150698]
低リソース言語10言語にまたがる多文語を含む文のデータセットをリリースする。データセット作成を容易にするために,本論文では,有意な半自動アノテーション手法を提案する。その結果、効果的な多意味的曖昧化のためのターゲットデータセット作成と評価の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-29T17:48:08Z)
Does Synthetic Data Help Named Entity Recognition for Low-Resource Languages? [2.7624021966289605]
低リソース言語のための名前付きエンティティ認識は、ラベル付きトレーニングデータが限られている言語のための堅牢なシステムを作ることを目的としている。低リソースラベル付きデータの量を増やすためのデータ拡張は一般的なプラクティスである。この結果から, 合成データは低リソース言語であるNERを約束するが, 言語間では大きな違いがあることがわかった。
論文参考訳（メタデータ） (2025-05-22T15:50:47Z)
MAGE: Multi-Head Attention Guided Embeddings for Low Resource Sentiment Classification [0.19381162067627603]
本稿では,Language-Independent Data Augmentation (LiDA) とマルチヘッドアテンションに基づく重み付き埋め込みを組み合わせた高度なモデルを提案する。このアプローチは、データ不足の問題に対処するだけでなく、低リソース言語処理と分類タスクにおける将来の研究の基盤となる。
論文参考訳（メタデータ） (2025-02-25T08:53:27Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文参考訳（メタデータ） (2025-01-22T12:06:16Z)
SwaQuAD-24: QA Benchmark Dataset in Swahili [0.0]
本稿では,Swahili Question Answering (QA)ベンチマークデータセットの作成を提案する。このデータセットは、スワヒリの言語的多様性と複雑さを捉える高品質で注釈付き質問応答ペアを提供することに重点を置いている。データプライバシ、バイアス緩和、インクリシティといった倫理的配慮が、データセット開発の中心である。
論文参考訳（メタデータ） (2024-10-18T08:49:24Z)
EthioMT: Parallel Corpus for Low-resource Ethiopian Languages [49.80726355048843]
15言語用の新しい並列コーパスであるEthioMTを紹介する。また、エチオピアのより優れた言語のためのデータセットを収集して、新しいベンチマークを作成する。トランスフォーマーと微調整手法を用いて,新たに収集したコーパスと23のエチオピア語に対するベンチマークデータセットを評価した。
論文参考訳（メタデータ） (2024-03-28T12:26:45Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。 Jupyter NotebookベースのウォークスルーがGitHubで公開されている。 GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文参考訳（メタデータ） (2023-06-02T12:09:59Z)
Language Agnostic Data-Driven Inverse Text Normalization [6.43601166279978]
逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。ラベル付き音声によるデータセットが不足しているため、非英語のデータ駆動ITNの研究は非常に限られている。このギャップを埋めるために、言語に依存しないデータ駆動ITNフレームワークを提案する。
論文参考訳（メタデータ） (2023-01-20T10:33:03Z)
NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文参考訳（メタデータ） (2022-12-19T17:28:22Z)
Beyond Counting Datasets: A Survey of Multilingual Dataset Construction and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。言語に習熟したNLP研究者と集団労働者を対象に調査を行った。メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文参考訳（メタデータ） (2022-11-28T18:54:33Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
FedNLP: A Research Platform for Federated Learning in Natural Language Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。 FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。 FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文参考訳（メタデータ） (2021-04-18T11:04:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。