論文の概要: UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese
- arxiv url: http://arxiv.org/abs/2305.04166v2
- Date: Tue, 9 May 2023 12:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:12:49.922366
- Title: UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in
Vietnamese
- Title(参考訳): UIT-OpenViIC:ベトナムにおける画像キャプション評価のための新しいベンチマーク
- Authors: Doanh C. Bui, Nghia Hieu Nguyen, Khang Nguyen
- Abstract要約: ベトナムにおける新しい画像キャプションデータセット、UIT-OpenViICについて紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
我々のデータセットは、MS COCOデータセットでよく機能する、最近の最先端(SOTA)トランスフォーマーベースのベースラインに挑戦していることを示す。
- 参考スコア(独自算出の注目度): 2.9649783577150837
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image Captioning is one of the vision-language tasks that still interest the
research community worldwide in the 2020s. MS-COCO Caption benchmark is
commonly used to evaluate the performance of advanced captioning models,
although it was published in 2015. Recent captioning models trained on the
MS-COCO Caption dataset only have good performance in language patterns of
English; they do not have such good performance in contexts captured in Vietnam
or fluently caption images using Vietnamese. To contribute to the low-resources
research community as in Vietnam, we introduce a novel image captioning dataset
in Vietnamese, the Open-domain Vietnamese Image Captioning dataset
(UIT-OpenViIC). The introduced dataset includes complex scenes captured in
Vietnam and manually annotated by Vietnamese under strict rules and
supervision. In this paper, we present in more detail the dataset creation
process. From preliminary analysis, we show that our dataset is challenging to
recent state-of-the-art (SOTA) Transformer-based baselines, which performed
well on the MS COCO dataset. Then, the modest results prove that UIT-OpenViIC
has room to grow, which can be one of the standard benchmarks in Vietnamese for
the research community to evaluate their captioning models. Furthermore, we
present a CAMO approach that effectively enhances the image representation
ability by a multi-level encoder output fusion mechanism, which helps improve
the quality of generated captions compared to previous captioning models.
- Abstract(参考訳): Image Captioningは、2020年代の世界の研究コミュニティに関心を持つ視覚言語タスクの1つだ。
MS-COCOキャプションベンチマークは、2015年に発表されたが、高度なキャプションモデルの性能を評価するために一般的に使用される。
MS-COCOキャプションデータセットでトレーニングされた最近のキャプションモデルは、英語の言語パターンにおいて、優れたパフォーマンスしか得られていない。
ベトナムの低リソース研究コミュニティに貢献するために,ベトナムにおける新しい画像キャプションデータセット,オープンドメインベトナム画像キャプションデータセット(UIT-OpenViIC)を紹介する。
導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。
本稿では,データセット作成プロセスについてより詳細に述べる。
予備分析から,我々のデータセットは,MS COCOデータセット上で良好に動作した最近のSOTA(State-of-the-art (SOTA) Transformer-based baselinesに対して困難であることを示す。
そして、控えめな結果から、uit-openviicは成長する余地があることが証明され、研究コミュニティがキャプションモデルを評価するためのベトナムの標準ベンチマークの1つとなる。
さらに,複数レベルのエンコーダ出力融合機構による画像表現能力を効果的に向上するCAMO手法を提案する。
関連論文リスト
- Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images [1.2529442734851663]
28,000以上の画像と12000以上の質問応答対からなる新しいデータセットViOCRVQA(Vietnamese Optical Character Recognition - Visual Question Answering dataset)を導入する。
このデータセットでは、すべての画像は、画像内のテキストに関連する情報に関するテキストと質問を含む。
ベトナムのデータセットに固有の課題と難しさを明らかにするため、我々のデータセットで実験を行うために英語が提案した最先端の手法のアイデアをデプロイする。
論文 参考訳(メタデータ) (2024-04-29T03:17:47Z) - KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain [3.495640663645263]
KTVICはベトナムの総合的な画像キャプチャーデータセットで、幅広い日々の活動をカバーしている。
このデータセットは4,327枚の画像と21,635個のベトナム語キャプションで構成され、ベトナム語で画像キャプションを推進するための貴重な資料となっている。
我々は、データセットのベースラインとして、さまざまなディープニューラルネットワークを使用して実験を行い、BLEU、METEOR、CIDEr、ROUGEといった標準画像キャプションメトリクスを使用して評価する。
論文 参考訳(メタデータ) (2024-01-16T04:01:49Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Injecting Semantic Concepts into End-to-End Image Captioning [61.41154537334627]
本稿では、地域特徴を抽出することなくグリッド表現を使用する、純粋視覚変換器を用いた画像キャプションモデルViTCAPを提案する。
性能向上のために,意味論的概念を予測し,それをエンドツーエンドのキャプションに組み込む新しいコンセプトトークンネットワーク(CTN)を導入する。
特に、CTNは視覚変換器に基づいて構築され、分類タスクを通じて概念トークンを予測するように設計されている。
論文 参考訳(メタデータ) (2021-12-09T22:05:05Z) - VieSum: How Robust Are Transformer-based Models on Vietnamese
Summarization? [1.1379578593538398]
ベトナムの抽象的な要約のためのトランスフォーマーベースエンコーダデコーダアーキテクチャのロバスト性について検討する。
ベトナムの2つのデータセットにおける手法の性能を検証した。
論文 参考訳(メタデータ) (2021-10-08T17:10:31Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image
Captioning [2.7528170226206443]
本稿では,異なる言語 - ベトナム語 - へのデータセット拡張の観点から,イメージキャプションタスクの研究に貢献する。
このスコープでは,ボールでプレーするスポーツに関連するMicrosoft COCOデータセットから,手書きのキャプションを含むデータセットを最初に構築する。
その後、ディープニューラルネットワークモデルのデータセットを評価し、英語のデータセットとベトナムの2つのデータセットとの比較を行った。
論文 参考訳(メタデータ) (2020-02-01T09:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。