論文の概要: Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine
Translation
- arxiv url: http://arxiv.org/abs/2205.01133v1
- Date: Mon, 2 May 2022 18:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 03:29:43.904382
- Title: Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine
Translation
- Title(参考訳): Hausa Visual Genome: Hausa 機械翻訳のためのマルチモーダル英語データセット
- Authors: Idris Abdulmumin, Satya Ranjan Dash, Musa Abdullahi Dawud, Shantipriya
Parida, Shamsuddeen Hassan Muhammad, Ibrahim Sa'id Ahmad, Subhadarshi Panda,
Ond\v{r}ej Bojar, Bashir Shehu Galadanci, Bello Shehu Bello
- Abstract要約: この研究は、Hausa Visual Genome (HaVG) を提示する。
データセットは32,923の画像とそれらの記述からなり、トレーニング、開発、テスト、チャレンジテストセットに分けられる。
HaVGはその種類の最初のデータセットであり、ハウサ・イングリッシュ機械翻訳、マルチモーダル・リサーチ、画像記述に使用することができる。
- 参考スコア(独自算出の注目度): 0.7536909803290599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Machine Translation (MMT) enables the use of visual information
to enhance the quality of translations. The visual information can serve as a
valuable piece of context information to decrease the ambiguity of input
sentences. Despite the increasing popularity of such a technique, good and
sizeable datasets are scarce, limiting the full extent of their potential.
Hausa, a Chadic language, is a member of the Afro-Asiatic language family. It
is estimated that about 100 to 150 million people speak the language, with more
than 80 million indigenous speakers. This is more than any of the other Chadic
languages. Despite a large number of speakers, the Hausa language is considered
low-resource in natural language processing (NLP). This is due to the absence
of sufficient resources to implement most NLP tasks. While some datasets exist,
they are either scarce, machine-generated, or in the religious domain.
Therefore, there is a need to create training and evaluation data for
implementing machine learning tasks and bridging the research gap in the
language. This work presents the Hausa Visual Genome (HaVG), a dataset that
contains the description of an image or a section within the image in Hausa and
its equivalent in English. To prepare the dataset, we started by translating
the English description of the images in the Hindi Visual Genome (HVG) into
Hausa automatically. Afterward, the synthetic Hausa data was carefully
post-edited considering the respective images. The dataset comprises 32,923
images and their descriptions that are divided into training, development,
test, and challenge test set. The Hausa Visual Genome is the first dataset of
its kind and can be used for Hausa-English machine translation, multi-modal
research, and image description, among various other natural language
processing and generation tasks.
- Abstract(参考訳): マルチモーダル機械翻訳(mmt)は、視覚情報を使用して翻訳の質を高めることを可能にする。
視覚情報は、入力文の曖昧さを減少させる貴重な文脈情報として機能することができる。
このような技術の人気が高まっているにもかかわらず、良質でスケール可能なデータセットは乏しく、その潜在能力を最大限に制限している。
ハウサ語(Hausa)は、アフロ・アジア語族に属する言語である。
約1億から1億5000万人がこの言語を話し、8000万人以上の先住民が話すと推定されている。
これは他のどのチャド語よりも多い。
話者数が多いにもかかわらず、Hausa言語は自然言語処理(NLP)において低リソースであると考えられている。
これは、ほとんどのNLPタスクを実装するのに十分なリソースがないためである。
いくつかのデータセットは存在するが、それらは希少、機械生成、または宗教領域にある。
したがって、機械学習タスクを実装し、言語における研究ギャップを埋めるために、トレーニングと評価データを作成する必要がある。
hausa visual genome (havg)は、hausaの画像内の画像またはセクションの記述を含むデータセットであり、英語で等価である。
データセットを作成するために、Hindi Visual Genome(HVG)の画像の英語記述をHausaに自動的に翻訳することから始めた。
その後, 合成ハウサデータを各画像から慎重に後編集した。
データセットは32,923の画像とその記述からなり、トレーニング、開発、テスト、チャレンジテストセットに分けられる。
hausa visual genomeはその種の最初のデータセットであり、様々な自然言語処理や生成タスクの中で、hausa- english machine translation、multi-modal research、image descriptionに使用できる。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Ngambay-French Neural Machine Translation (sba-Fr) [16.55378462843573]
アフリカや世界全体では、言語障壁を克服するニューラルネットワーク翻訳(NMT)システムの開発に注目が集まっている。
このプロジェクトでは,Ngambay-to- French翻訳のコーパスである,最初のsba-Frデータセットを作成しました。
実験の結果,M2M100モデルは,オリジナルとオリジナルの両方の合成データに対して,BLEUスコアの高い他のモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-08-25T17:13:20Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - TextMage: The Automated Bangla Caption Generator Based On Deep Learning [1.2330326247154968]
TextMageはバングラデシュの地理的文脈に属する視覚シーンを理解することができるシステムである。
このデータセットには、9,154のイメージと、各イメージに対する2つのアノテーションが含まれている。
論文 参考訳(メタデータ) (2020-10-15T23:24:15Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。