論文の概要: FooDI-ML: a large multi-language dataset of food, drinks and groceries
images and descriptions
- arxiv url: http://arxiv.org/abs/2110.02035v1
- Date: Tue, 5 Oct 2021 13:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:28:45.464080
- Title: FooDI-ML: a large multi-language dataset of food, drinks and groceries
images and descriptions
- Title(参考訳): FooDI-ML:食品、飲料、食料品の画像と説明の多言語データセット
- Authors: David Amat Ol\'ondriz and Pon\c{c} Palau Puigdevall and Adri\`a
Salvador Palau
- Abstract要約: このデータセットは、東ヨーロッパと西アジア(ウクライナ語やカザフ語など)の870万の言語のサンプルを含む33の言語を記述している。
データセットにはスペイン語や英語など、広く話されている言語も含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we introduce the Food Drinks and groceries Images Multi Lingual
(FooDI-ML) dataset. This dataset contains over 1.5M unique images and over 9.5M
store names, product names descriptions, and collection sections gathered from
the Glovo application. The data made available corresponds to food, drinks and
groceries products from 37 countries in Europe, the Middle East, Africa and
Latin America. The dataset comprehends 33 languages, including 870K samples of
languages of countries from Eastern Europe and Western Asia such as Ukrainian
and Kazakh, which have been so far underrepresented in publicly available
visio-linguistic datasets. The dataset also includes widely spoken languages
such as Spanish and English. To assist further research, we include a benchmark
over the text-image retrieval task using ADAPT, a SotA existing technique.
- Abstract(参考訳): 本稿では,食品飲料・食料品画像多言語(FooDI-ML)データセットについて紹介する。
このデータセットには1.5M以上のユニークなイメージと9.5M以上のストア名、製品名の説明、Glovoアプリケーションから収集されたコレクションセクションが含まれている。
利用可能なデータは、ヨーロッパ、中東、アフリカ、ラテンアメリカの37カ国の食品、飲料、食料品製品に対応している。
このデータセットは、ウクライナやカザフといった東ヨーロッパや西アジアからの870万の言語のサンプルを含む33の言語を記述している。
データセットにはスペイン語や英語など広く話されている言語も含まれている。
さらなる研究を支援するため,既存の SotA 技術である ADAPT を用いたテキスト画像検索タスクのベンチマークを含む。
関連論文リスト
- IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500
Languages [1.4174475093445238]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - TaTa: A Multilingual Table-to-Text Dataset for African Languages [32.348630887289524]
アフリカ言語におけるテーブル・トゥ・テキスト(TaTa)は、アフリカ言語に焦点を当てた最初の大規模多言語テーブル・トゥ・テキストデータセットである。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yorub'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8,700の例が含まれている。
論文 参考訳(メタデータ) (2022-10-31T21:05:42Z) - Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of
Downstream Tasks [0.007696728525672149]
Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。
これらファースト・オブ・ザ・キンドのベースラインのいくつかは、高リソース言語の最先端のパフォーマンスに匹敵するものである。
論文 参考訳(メタデータ) (2022-10-26T13:45:14Z) - EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form
Summarization in the Legal Domain [2.4815579733050157]
欧州連合法プラットフォーム(EUR-Lex)の法的行為を手作業でキュレートした文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。
文書とその要約は、24の公用語のうちいくつかの言語間の段落整列データとして存在している。
言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。
論文 参考訳(メタデータ) (2022-10-24T17:58:59Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。