論文の概要: BIG-C: a Multimodal Multi-Purpose Dataset for Bemba
- arxiv url: http://arxiv.org/abs/2305.17202v1
- Date: Fri, 26 May 2023 18:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 21:22:29.223845
- Title: BIG-C: a Multimodal Multi-Purpose Dataset for Bemba
- Title(参考訳): BIG-C:Bemba用マルチモーダル多目的データセット
- Authors: Claytone Sikasote, Eunice Mukonde, Md Mahfuz Ibn Alam, Antonios
Anastasopoulos
- Abstract要約: データセットは、画像に基づいてベンバ話者間のマルチターン対話で構成され、翻訳され、英語に翻訳される。
92,000以上の発話/文があり、対応する書き起こしと英訳を伴う180時間以上の音声データである。
- 参考スコア(独自算出の注目度): 30.058814706934147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present BIG-C (Bemba Image Grounded Conversations), a large multimodal
dataset for Bemba. While Bemba is the most populous language of Zambia, it
exhibits a dearth of resources which render the development of language
technologies or language processing research almost impossible. The dataset is
comprised of multi-turn dialogues between Bemba speakers based on images,
transcribed and translated into English. There are more than 92,000
utterances/sentences, amounting to more than 180 hours of audio data with
corresponding transcriptions and English translations. We also provide
baselines on speech recognition (ASR), machine translation (MT) and speech
translation (ST) tasks, and sketch out other potential future multimodal uses
of our dataset. We hope that by making the dataset available to the research
community, this work will foster research and encourage collaboration across
the language, speech, and vision communities especially for languages outside
the "traditionally" used high-resourced ones. All data and code are publicly
available: https://github.com/csikasote/bigc.
- Abstract(参考訳): 我々は, bemba 用の大規模マルチモーダルデータセット big-c (bemba image grounded conversations) を提案する。
ベンバ語はザンビアで最も人口の多い言語であるが、言語技術や言語処理研究の開発をほぼ不可能にする資源が豊富にある。
データセットは、画像に基づく bemba 話者間の多段対話からなり、書き起こされ、英語に翻訳される。
92,000以上の発話/文があり、対応する書き起こしと英訳を伴う180時間以上の音声データである。
また、音声認識(ASR)、機械翻訳(MT)、音声翻訳(ST)タスクのベースラインを提供し、我々のデータセットの他の潜在的なマルチモーダル利用をスケッチする。
研究コミュニティがデータセットを利用できるようにすることで、この研究が研究を奨励し、特に"伝統的に"使われている高リソースの言語以外の言語に対して、言語、スピーチ、ビジョンコミュニティ間のコラボレーションを促進することを期待しています。
すべてのデータとコードは、https://github.com/csikasote/bigc.comで公開されている。
関連論文リスト
- BOUQuET: dataset, Benchmark and Open initiative for Universal Quality Evaluation in Translation [28.456351723077088]
このデータセットは、まず英語以外の言語で手作りされている。
それぞれのソース言語は、世界の人口の半分が一般的に使っている23の言語に代表される。
論文 参考訳(メタデータ) (2025-02-06T18:56:37Z) - Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Bengali Common Voice Speech Dataset for Automatic Speech Recognition [0.9218853132156671]
ベンガル語は世界で3億人以上の話者を抱える世界有数の言語の一つである。
その人気にもかかわらず、ベンガル音声認識システムの開発に関する研究は、多様なオープンソースデータセットが不足しているために妨げられている。
このデータセットから得られた知見を提示し、今後のバージョンで対処すべき重要な言語的課題について議論する。
論文 参考訳(メタデータ) (2022-06-28T14:52:08Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - CoVoST 2 and Massively Multilingual Speech-to-Text Translation [24.904548615918355]
CoVoST 2は、21の言語から英語、および15の言語への翻訳をカバーする大規模な多言語音声翻訳コーパスである。
これは、トータルボリュームと言語カバレッジの観点から、現在利用可能な最大のオープンデータセットである。
論文 参考訳(メタデータ) (2020-07-20T17:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。