論文の概要: BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers
Models for Vietnamese Visual Question Answering
- arxiv url: http://arxiv.org/abs/2307.15335v1
- Date: Fri, 28 Jul 2023 06:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:31:49.054444
- Title: BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers
Models for Vietnamese Visual Question Answering
- Title(参考訳): BARTPhoBEiT:ベトナムの視覚質問応答のための事前訓練されたシーケンス・ツー・シーケンスと画像トランスフォーマーモデル
- Authors: Khiem Vinh Tran and Kiet Van Nguyen and Ngan Luu Thuy Nguyen
- Abstract要約: VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合した複雑で要求の多いタスクである。
本稿では,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを紹介する。
このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンス・ツー・シーケンスと双方向エンコーダ表現を含み、ベトナムのVQAデータセットを評価する。
- 参考スコア(独自算出の注目度): 3.0938904602244355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual Question Answering (VQA) is an intricate and demanding task that
integrates natural language processing (NLP) and computer vision (CV),
capturing the interest of researchers. The English language, renowned for its
wealth of resources, has witnessed notable advancements in both datasets and
models designed for VQA. However, there is a lack of models that target
specific countries such as Vietnam. To address this limitation, we introduce a
transformer-based Vietnamese model named BARTPhoBEiT. This model includes
pre-trained Sequence-to-Sequence and bidirectional encoder representation from
Image Transformers in Vietnamese and evaluates Vietnamese VQA datasets.
Experimental results demonstrate that our proposed model outperforms the strong
baseline and improves the state-of-the-art in six metrics: Accuracy, Precision,
Recall, F1-score, WUPS 0.0, and WUPS 0.9.
- Abstract(参考訳): VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合し、研究者の興味を引き付ける複雑なタスクである。
英語は豊富な資源で知られており、VQA用に設計されたデータセットとモデルの両方に顕著な進歩が見られる。
しかし、ベトナムなど特定の国をターゲットにしたモデルが不足している。
この制限に対処するために,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを導入する。
このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンスツーシーケンスと双方向エンコーダ表現を含み、ベトナムのvqaデータセットを評価する。
実験の結果,提案手法は,精度,精度,リコール,F1スコア,WUPS 0.0,WUPS 0.9の6つの指標において,強いベースラインを上回り,最先端化を実現していることがわかった。
関連論文リスト
- Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - Generative Pre-trained Transformer for Vietnamese Community-based
COVID-19 Question Answering [0.0]
GPT(Generative Pre-trained Transformer)は,SOTA(State-of-the-art)質問応答システムにおいて,デコーダとして有効に使用されている。
本稿では,ベトナムにおける新型コロナウイルス関連問合せに焦点を当てたコミュニティベースの質問応答のためのGPT-2の実装について述べる。
論文 参考訳(メタデータ) (2023-10-23T06:14:07Z) - Visual Question Generation in Bengali [0.0]
我々は,ベンガル語で画像が与えられたときに質問を生成するトランスフォーマーベースのエンコーダデコーダアーキテクチャを開発した。
ベンガル語で視覚質問生成タスクのためのアートモデルの最初の状態を確立する。
その結果,画像キャットモデルではBLUE-1スコアが33.12,BLEU-3スコアが7.56であった。
論文 参考訳(メタデータ) (2023-10-12T10:26:26Z) - ViT5: Pretrained Text-to-Text Transformer for Vietnamese Language
Generation [2.0302025541827247]
ベトナム語のトランスフォーマーを用いたエンコーダデコーダモデルViT5を提案する。
T5スタイルの自己教師型プレトレーニングでは、ViT5は高品質で多様なベトナム語のテキストのコーパスで訓練されている。
論文 参考訳(メタデータ) (2022-05-13T06:08:35Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。