論文の概要: UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image
Captioning
- arxiv url: http://arxiv.org/abs/2002.00175v1
- Date: Sat, 1 Feb 2020 09:26:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:55:20.747307
- Title: UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image
Captioning
- Title(参考訳): UIT-ViIC:ベトナムの画像キャプチャーに関する最初の評価データセット
- Authors: Quan Hoang Lam, Quang Duy Le, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
- Abstract要約: 本稿では,異なる言語 - ベトナム語 - へのデータセット拡張の観点から,イメージキャプションタスクの研究に貢献する。
このスコープでは,ボールでプレーするスポーツに関連するMicrosoft COCOデータセットから,手書きのキャプションを含むデータセットを最初に構築する。
その後、ディープニューラルネットワークモデルのデータセットを評価し、英語のデータセットとベトナムの2つのデータセットとの比較を行った。
- 参考スコア(独自算出の注目度): 2.7528170226206443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image Captioning, the task of automatic generation of image captions, has
attracted attentions from researchers in many fields of computer science, being
computer vision, natural language processing and machine learning in recent
years. This paper contributes to research on Image Captioning task in terms of
extending dataset to a different language - Vietnamese. So far, there is no
existed Image Captioning dataset for Vietnamese language, so this is the
foremost fundamental step for developing Vietnamese Image Captioning. In this
scope, we first build a dataset which contains manually written captions for
images from Microsoft COCO dataset relating to sports played with balls, we
called this dataset UIT-ViIC. UIT-ViIC consists of 19,250 Vietnamese captions
for 3,850 images. Following that, we evaluate our dataset on deep neural
network models and do comparisons with English dataset and two Vietnamese
datasets built by different methods. UIT-ViIC is published on our lab website
for research purposes.
- Abstract(参考訳): 画像キャプションの自動生成タスクであるImage Captioningは、コンピュータビジョン、自然言語処理、機械学習など、コンピュータ科学の多くの分野の研究者から注目を集めている。
本稿では,異なる言語 - ベトナム語 - へのデータセット拡張の観点から,イメージキャプションタスクの研究に貢献する。
これまでのところ、ベトナム語のための画像キャプチャーデータセットは存在しないので、これはベトナム語画像キャプチャーを開発するための最も基本的なステップである。
そこで我々はまず,ボールでプレーするスポーツに関するMicrosoft COCOデータセットの画像に手書きのキャプションを含むデータセットを構築し,このデータセットをUIT-ViICと呼ぶ。
UIT-ViICは3,850枚の画像に対して19,250個のベトナム字幕で構成されている。
その後,深層ニューラルネットワークモデルのデータセットを評価し,異なる手法で構築された英語データセットとベトナム語の2つのデータセットとの比較を行う。
UIT-ViICは、我々の研究室のウェブサイトで研究目的で公開されている。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images [1.2529442734851663]
28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。
このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。
ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセットで実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。
論文 参考訳(メタデータ) (2024-04-29T03:17:47Z) - ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images [1.2529442734851663]
ベトナムでは,画像に現れるテキストを理解する能力に特化して,最初の大規模データセットを導入する。
我々は、OCRテキスト中のトークンを処理し、回答を定式化するために選択する順序の重要性を明らかにする。
論文 参考訳(メタデータ) (2024-04-16T15:28:30Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain [3.495640663645263]
KTVICはベトナムの総合的な画像キャプチャーデータセットで、幅広い日々の活動をカバーしている。
このデータセットは4,327枚の画像と21,635個のベトナム語キャプションで構成され、ベトナム語で画像キャプションを推進するための貴重な資料となっている。
我々は、データセットのベースラインとして、さまざまなディープニューラルネットワークを使用して実験を行い、BLEU、METEOR、CIDEr、ROUGEといった標準画像キャプションメトリクスを使用して評価する。
論文 参考訳(メタデータ) (2024-01-16T04:01:49Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese [2.9649783577150837]
ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-05-07T02:48:47Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。