論文の概要: KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain
- arxiv url: http://arxiv.org/abs/2401.08100v1
- Date: Tue, 16 Jan 2024 04:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:16:56.121307
- Title: KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain
- Title(参考訳): KTVIC:ベトナムのライフドメイン上の画像キャプチャーデータセット
- Authors: Anh-Cuong Pham, Van-Quang Nguyen, Thi-Hong Vuong, Quang-Thuy Ha
- Abstract要約: KTVICはベトナムの総合的な画像キャプチャーデータセットで、幅広い日々の活動をカバーしている。
このデータセットは4,327枚の画像と21,635個のベトナム語キャプションで構成され、ベトナム語で画像キャプションを推進するための貴重な資料となっている。
我々は、データセットのベースラインとして、さまざまなディープニューラルネットワークを使用して実験を行い、BLEU、METEOR、CIDEr、ROUGEといった標準画像キャプションメトリクスを使用して評価する。
- 参考スコア(独自算出の注目度): 3.495640663645263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image captioning is a crucial task with applications in a wide range of
domains, including healthcare and education. Despite extensive research on
English image captioning datasets, the availability of such datasets for
Vietnamese remains limited, with only two existing datasets. In this study, we
introduce KTVIC, a comprehensive Vietnamese Image Captioning dataset focused on
the life domain, covering a wide range of daily activities. This dataset
comprises 4,327 images and 21,635 Vietnamese captions, serving as a valuable
resource for advancing image captioning in the Vietnamese language. We conduct
experiments using various deep neural networks as the baselines on our dataset,
evaluating them using the standard image captioning metrics, including BLEU,
METEOR, CIDEr, and ROUGE. Our findings underscore the effectiveness of the
proposed dataset and its potential contributions to the field of image
captioning in the Vietnamese context.
- Abstract(参考訳): 画像キャプションは、医療や教育を含む幅広い分野のアプリケーションにとって重要なタスクである。
英語の画像キャプションデータセットに関する広範な研究にもかかわらず、ベトナム語で利用可能なデータセットは限られており、既存のデータセットは2つしかない。
本研究では,生活領域に着目した包括的ベトナム画像キャプチャーデータセットであるKTVICを紹介する。
このデータセットは4,327枚の画像と21,635個のベトナム語キャプションで構成され、ベトナム語で画像キャプションを推進するための貴重な資料となっている。
データセットのベースラインとして、さまざまなディープニューラルネットワークを使用して実験を行い、bleu、meteor、cider、rougeなどの標準画像キャプションメトリクスを用いて評価します。
本研究は,提案するデータセットの有効性と,ベトナムの文脈における画像キャプションの分野への潜在的貢献を裏付けるものである。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images [1.2529442734851663]
28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。
このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。
ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセットで実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。
論文 参考訳(メタデータ) (2024-04-29T03:17:47Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese [2.9649783577150837]
ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
論文 参考訳(メタデータ) (2023-05-07T02:48:47Z) - BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset [0.5893124686141781]
Banglaのようなリソース制約のある言語は、標準データセットの欠如が主な原因で、焦点が当てられていない。
Flickr8kで広く使われているデータセットのBAN-Capに続き、資格アノテータが提供した画像のBanglaキャプションを収集する。
テキスト増強の効果について検討し,適応的注意に基づくモデルと文脈的単語置換(CWR)を用いたテキスト増強が,Bangla画像キャプションの最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-28T15:39:09Z) - #PraCegoVer: A Large Dataset for Image Captioning in Portuguese [6.890235464357029]
PraCegoVerは、ポルトガル語で画像キャプションを自由に注釈付けした最初の大規模なデータセットである。
PraCegoVerと呼ばれる動きがインターネット上で発生し、ソーシャルメディアからユーザーを刺激して画像をパブリッシュし、#PraCegoVerにタグ付けし、コンテンツの簡単な説明を追加します。
論文 参考訳(メタデータ) (2021-03-21T19:55:46Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image
Captioning [2.7528170226206443]
本稿では,異なる言語 - ベトナム語 - へのデータセット拡張の観点から,イメージキャプションタスクの研究に貢献する。
このスコープでは,ボールでプレーするスポーツに関連するMicrosoft COCOデータセットから,手書きのキャプションを含むデータセットを最初に構築する。
その後、ディープニューラルネットワークモデルのデータセットを評価し、英語のデータセットとベトナムの2つのデータセットとの比較を行った。
論文 参考訳(メタデータ) (2020-02-01T09:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。