Fugu-MT 論文翻訳(概要): naab: A ready-to-use plug-and-play corpus for Farsi

関連論文リスト

Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文参考訳（メタデータ） (2025-06-30T22:26:36Z)
Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-12-13T16:13:35Z)
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文参考訳（メタデータ） (2024-10-31T11:14:12Z)
FuLG: 150B Romanian Corpus for Language Model Pretraining [76.09455151754062]
我々は,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。
論文参考訳（メタデータ） (2024-07-18T16:32:48Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文参考訳（メタデータ） (2024-04-01T09:24:06Z)
High-quality Data-to-Text Generation for Severely Under-Resourced Languages with Out-of-the-box Large Language Models [5.632410663467911]
我々は、事前訓練された大規模言語モデル(LLM)が、アンダーリソース言語のパフォーマンスギャップを埋める可能性について検討する。 LLM は,低リソース言語における技術の現状を,かなりのマージンで容易に設定できることがわかった。全ての言語について、人間の評価は最高のシステムで人間と同等のパフォーマンスを示すが、BLEUのスコアは英語に比べて崩壊する。
論文参考訳（メタデータ） (2024-02-19T16:29:40Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文参考訳（メタデータ） (2023-11-21T09:59:29Z)
Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文参考訳（メタデータ） (2023-10-30T08:31:47Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
SAHAAYAK 2023 -- the Multi Domain Bilingual Parallel Corpus of Sanskrit to Hindi for Machine Translation [0.0]
コーパスには、サンスクリットとヒンディー語の間の合計1.5万の文対が含まれている。複数のドメインからのデータは、ニュース、デイリーの会話、政治、歴史、スポーツ、古代インド文学を含むコーパスに組み込まれている。
論文参考訳（メタデータ） (2023-06-27T11:06:44Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
HmBlogs: A big general Persian corpus [0.0]
本稿では,低資源言語としてのペルシャ語 hmBlogs corpus を紹介する。このコーパスは、ペルシャのブログから約15年間に2000万近いブログ記事を収集して準備されている。このコーパスは現在、ペルシア語のために独立して準備された最大のペルシア語コーパスであると言える。
論文参考訳（メタデータ） (2021-11-03T17:26:52Z)
An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文参考訳（メタデータ） (2021-04-30T19:46:24Z)
Potential Idiomatic Expression (PIE)-English: Corpus for Classes of Idioms [1.6111818380407035]
これはリテラルと一般的なイディオム分類を超えたイディオムのクラスを持つ最初のデータセットである。このデータセットは、10のクラス(または感覚)から約1200のイディオム(それらの意味を持つ)を持つ20,100以上のサンプルを含んでいる。
論文参考訳（メタデータ） (2021-04-25T13:05:29Z)
Crowdsourcing Parallel Corpus for English-Oromo Neural Machine Translation using Community Engagement Platform [0.0]
本稿では,Afaan Oromo への英語の翻訳と,その逆を Neural Machine Translation を用いて行う。 40k以上の文対からなるバイリンガルコーパスを用いて,本研究は有望な結果を示した。
論文参考訳（メタデータ） (2021-02-15T13:22:30Z)
ParsiNLU: A Suite of Language Understanding Challenges for Persian [23.26176232463948]
この作品は、世界で広く話されている言語の1つであるペルシャ語に焦点を当てています。このリッチ言語で利用可能なNLUデータセットは少ない。 ParsiNLUは、さまざまな高レベルのタスクを含むペルシャ語言語の最初のベンチマークです。
論文参考訳（メタデータ） (2020-12-11T06:31:42Z)
Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。 MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文参考訳（メタデータ） (2020-10-23T19:17:00Z)
A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。 635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文参考訳（メタデータ） (2020-05-28T13:03:51Z)
AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages [15.425783311152117]
IndicNLPコーパス(IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、In これらのコーパスでトレーニングされた事前訓練された単語埋め込みを共有します。 IndicNLPの埋め込みは、複数の評価タスクにおいて、利用可能な事前訓練済みの埋め込みよりも大幅に優れていた。
論文参考訳（メタデータ） (2020-04-30T20:21:02Z)
Combining Pretrained High-Resource Embeddings and Subword Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文参考訳（メタデータ） (2020-03-09T21:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: naab: A ready-to-use plug-and-play corpus for Farsi

関連論文リスト