論文の概要: AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
- arxiv url: http://arxiv.org/abs/2603.09689v1
- Date: Tue, 10 Mar 2026 13:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.354404
- Title: AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
- Title(参考訳): AutoViVQA:ベトナムの視覚的質問応答のための大規模自動構築データセット
- Authors: Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le,
- Abstract要約: VQA(Visual Question Answering)は、モデルが視覚情報とテキスト情報を共同で理解する必要がある基本的なマルチモーダルタスクである。
近年の研究では、VQAタスクにおいて、大規模言語モデルによって自動評価と人的判断の整合性がさらに向上することが示唆されている。
- 参考スコア(独自算出の注目度): 2.4577252294937444
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Visual Question Answering (VQA) is a fundamental multimodal task that requires models to jointly understand visual and textual information. Early VQA systems relied heavily on language biases, motivating subsequent work to emphasize visual grounding and balanced datasets. With the success of large-scale pre-trained transformers for both text and vision domains -- such as PhoBERT for Vietnamese language understanding and Vision Transformers (ViT) for image representation learning -- multimodal fusion has achieved remarkable progress. For Vietnamese VQA, several datasets have been introduced to promote research in low-resource multimodal learning, including ViVQA, OpenViVQA, and the recently proposed ViTextVQA. These resources enable benchmarking of models that integrate linguistic and visual features in the Vietnamese context. Evaluation of VQA systems often employs automatic metrics originally designed for image captioning or machine translation, such as BLEU, METEOR, CIDEr, Recall, Precision, and F1-score. However, recent research suggests that large language models can further improve the alignment between automatic evaluation and human judgment in VQA tasks. In this work, we explore Vietnamese Visual Question Answering using transformer-based architectures, leveraging both textual and visual pre-training while systematically comparing automatic evaluation metrics under multilingual settings.
- Abstract(参考訳): VQA(Visual Question Answering)は、モデルが視覚情報とテキスト情報を共同で理解する必要がある基本的なマルチモーダルタスクである。
初期のVQAシステムは言語バイアスに大きく依存しており、視覚的な接地とバランスの取れたデータセットを強調するためにその後の作業を動機付けていた。
ベトナム語理解のためのPhoBERTや画像表現学習のためのVit(ViT)など、テキストと視覚の両方のための大規模事前学習型トランスフォーマーの成功により、マルチモーダル融合は目覚ましい進歩を遂げた。
ベトナムのVQAでは、ViVQA、OpenViVQA、最近提案されたViTextVQAなど、低リソースのマルチモーダル学習の研究を促進するためにいくつかのデータセットが導入されている。
これらのリソースはベトナムの文脈で言語的特徴と視覚的特徴を統合するモデルのベンチマークを可能にする。
VQAシステムの評価には、BLEU、METEOR、CIDEr、Recall、Precision、F1スコアなどの画像キャプションや機械翻訳用に設計された自動メトリクスを使用することが多い。
しかし、近年の研究では、VQAタスクにおける自動評価と人的判断の整合性をさらに向上させることが示唆されている。
本研究では,マルチランガル設定下での自動評価指標を体系的に比較しながら,テキストと視覚の両方の事前学習を活用するトランスフォーマーアーキテクチャを用いたベトナム語視覚質問応答について検討する。
関連論文リスト
- Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations [3.735112400244042]
Visual Question Answering (VQA)は、テキスト入力と視覚入力をまたいだ推論を必要とするマルチモーダルタスクである。
従来の手法は、広範囲の注釈付きデータセット、計算コストの高いパイプライン、大規模な事前訓練されたモデルに大きく依存することが多い。
パラフレーズベースの機能拡張モジュールと動的カリキュラム学習戦略を組み合わせたトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T09:12:16Z) - Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。
画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-30T22:32:50Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant [48.220285886328746]
本稿では,SQ-LLaVA: Self-Questioning for Large Vision-Language Assistantを提案する。
SQ-LLaVAは、視覚的手がかりと先行言語知識を分析しながら、柔軟で有意義な画像関連質問を生成する能力を示す。
高品質なインストラクションデータに対する微調整SQ-LLaVAは、従来の視覚的インストラクションチューニング手法と比較して性能改善を示す。
論文 参考訳(メタデータ) (2024-03-17T18:42:38Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。