論文の概要: Afro-MNIST: Synthetic generation of MNIST-style datasets for
low-resource languages
- arxiv url: http://arxiv.org/abs/2009.13509v1
- Date: Mon, 28 Sep 2020 17:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:24:11.376072
- Title: Afro-MNIST: Synthetic generation of MNIST-style datasets for
low-resource languages
- Title(参考訳): Afro-MNIST:低リソース言語向けMNISTスタイルデータセットの合成
- Authors: Daniel J Wu, Andrew C Yang, Vinay U Prabhu
- Abstract要約: Afro-MNISTは、Afro-Asiatic言語とNiger-Congo言語で使用される4つの正書法のための合成MNISTスタイルのデータセットである。
これらのデータセットはMNISTの"ドロップイン"代替として機能する。
- 参考スコア(独自算出の注目度): 1.6114012813668934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Afro-MNIST, a set of synthetic MNIST-style datasets for four
orthographies used in Afro-Asiatic and Niger-Congo languages: Ge`ez (Ethiopic),
Vai, Osmanya, and N'Ko. These datasets serve as "drop-in" replacements for
MNIST. We also describe and open-source a method for synthetic MNIST-style
dataset generation from single examples of each digit. These datasets can be
found at https://github.com/Daniel-Wu/AfroMNIST. We hope that MNIST-style
datasets will be developed for other numeral systems, and that these datasets
vitalize machine learning education in underrepresented nations in the research
community.
- Abstract(参考訳): 本稿では,Afro-Asiatic と Niger-Congo 言語で使用されている4つの正書法のための合成 MNIST 形式のデータセットである Afro-MNIST について述べる。
これらのデータセットはMNISTの"ドロップイン"代替として機能する。
また,各桁の単一例からMNISTスタイルのデータセットを生成する手法について述べる。
これらのデータセットはhttps://github.com/Daniel-Wu/AfroMNISTで見ることができる。
MNISTスタイルのデータセットが他の数値システム向けに開発され、これらのデータセットが研究コミュニティの少数民族における機械学習教育を活性化することを期待している。
関連論文リスト
- Floralens: a Deep Learning Model for the Portuguese Native Flora [0.5534140394498714]
本稿では,ポルトガル原生植物群を対象とした,公開可能な研究グレードデータセットに基づくデータセットの構築について述べる。
既成の深層畳み込みニューラルネットワークを用いて高精度モデルを導出する。
最も優れたモデルであるFloralensは、Project Biolensの公開ウェブサイトに統合されました。
論文 参考訳(メタデータ) (2024-02-13T15:23:21Z) - SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。
我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-02T18:59:58Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - deepNIR: Datasets for generating synthetic NIR images and improved fruit
detection system using deep learning techniques [2.5191300830630126]
本稿では,合成近赤外(NIR)画像生成とバウンディングボックスレベルの果物検出システムに利用したデータセットを提案する。
11.36,26.53,40.15のFrechet Inception Distance(FID)をNirscene1,SEN12MS,甘辛料データセットでそれぞれ達成した。
データセットのバウンディングボックスの総数は162kで、クラウドサービスから使用可能である。
論文 参考訳(メタデータ) (2022-03-17T05:25:36Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - SynthBio: A Case Study in Human-AI Collaborative Curation of Text
Datasets [26.75449546181059]
効率的なデータセットキュレーションのための新しい手法を提案する。
私たちは大きな言語モデルを使って、人間のレイパーにシード世代を提供しています。
われわれの架空の伝記のデータセットはWikiBioより騒がしい。
論文 参考訳(メタデータ) (2021-11-11T21:21:48Z) - MNIST-MIX: A Multi-language Handwritten Digit Recognition Dataset [5.780772209241294]
MNIST-Mixは、言語とデータサンプルの両方において、同じタイプの最大のデータセットである。
10の異なる言語から桁を導入することで、MNIST-Mixはより難しいデータセットになる。
MNIST をベースラインとして事前学習した LeNet モデルの適用結果を示す。
論文 参考訳(メタデータ) (2020-04-08T07:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。