論文の概要: TaTa: A Multilingual Table-to-Text Dataset for African Languages
- arxiv url: http://arxiv.org/abs/2211.00142v1
- Date: Mon, 31 Oct 2022 21:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 12:56:52.359730
- Title: TaTa: A Multilingual Table-to-Text Dataset for African Languages
- Title(参考訳): TaTa: アフリカ言語用多言語テーブル・トゥ・テキストデータセット
- Authors: Sebastian Gehrmann, Sebastian Ruder, Vitaly Nikolaev, Jan A. Botha,
Michael Chavinda, Ankur Parikh, Clara Rivera
- Abstract要約: アフリカ言語におけるテーブル・トゥ・テキスト(TaTa)は、アフリカ言語に焦点を当てた最初の大規模多言語テーブル・トゥ・テキストデータセットである。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yorub'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8,700の例が含まれている。
- 参考スコア(独自算出の注目度): 32.348630887289524
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing data-to-text generation datasets are mostly limited to English. To
address this lack of data, we create Table-to-Text in African languages (TaTa),
the first large multilingual table-to-text dataset with a focus on African
languages. We created TaTa by transcribing figures and accompanying text in
bilingual reports by the Demographic and Health Surveys Program, followed by
professional translation to make the dataset fully parallel. TaTa includes
8,700 examples in nine languages including four African languages (Hausa, Igbo,
Swahili, and Yor\`ub\'a) and a zero-shot test language (Russian). We
additionally release screenshots of the original figures for future research on
multilingual multi-modal approaches. Through an in-depth human evaluation, we
show that TaTa is challenging for current models and that less than half the
outputs from an mT5-XXL-based model are understandable and attributable to the
source data. We further demonstrate that existing metrics perform poorly for
TaTa and introduce learned metrics that achieve a high correlation with human
judgments. We release all data and annotations at
https://github.com/google-research/url-nlp.
- Abstract(参考訳): 既存のデータ・テキスト生成データセットはほとんど英語に限られている。
このデータ不足に対処するため、アフリカ言語に焦点をあてた最初の大規模多言語テーブルツーテキストデータセットであるtata(table-to-text in african languages)を作成しました。
我々は、数値を翻訳し、Demographic and Health Surveys Programによるバイリンガルレポートに付随するテキストを添付してTaTaを作成し、続いてプロフェッショナル翻訳を行い、データセットを完全に並列にしました。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yor\`ub\'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8700の例が含まれている。
また,多言語マルチモーダル手法の今後の研究のために,原図のスクリーンショットも公開する。
詳細な人的評価を通じて、TaTaは現在のモデルでは困難であり、mT5-XXLモデルからの出力の半分以下は、ソースデータに関連があることが示される。
さらに,既存の測定値がtataに対してパフォーマンスに乏しいことを実証し,人間の判断と高い相関性を達成するための学習指標を導入する。
私たちはすべてのデータとアノテーションをhttps://github.com/google-research/url-nlpでリリースします。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - XF2T: Cross-lingual Fact-to-Text Generation for Low-Resource Languages [11.581072296148031]
拡張多言語データセット上で、人気のあるTransformerベースのテキスト生成モデルを用いて広範な研究を行う。
構造認識型入力エンコーディングとファクト認識を用いたマルチ言語 mT5 モデルにより,12言語の平均結果が得られた。
論文 参考訳(メタデータ) (2022-09-22T18:01:27Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。