論文の概要: BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers
Models for Vietnamese Visual Question Answering
- arxiv url: http://arxiv.org/abs/2307.15335v1
- Date: Fri, 28 Jul 2023 06:23:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:31:49.054444
- Title: BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers
Models for Vietnamese Visual Question Answering
- Title(参考訳): BARTPhoBEiT:ベトナムの視覚質問応答のための事前訓練されたシーケンス・ツー・シーケンスと画像トランスフォーマーモデル
- Authors: Khiem Vinh Tran and Kiet Van Nguyen and Ngan Luu Thuy Nguyen
- Abstract要約: VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合した複雑で要求の多いタスクである。
本稿では,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを紹介する。
このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンス・ツー・シーケンスと双方向エンコーダ表現を含み、ベトナムのVQAデータセットを評価する。
- 参考スコア(独自算出の注目度): 3.0938904602244355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual Question Answering (VQA) is an intricate and demanding task that
integrates natural language processing (NLP) and computer vision (CV),
capturing the interest of researchers. The English language, renowned for its
wealth of resources, has witnessed notable advancements in both datasets and
models designed for VQA. However, there is a lack of models that target
specific countries such as Vietnam. To address this limitation, we introduce a
transformer-based Vietnamese model named BARTPhoBEiT. This model includes
pre-trained Sequence-to-Sequence and bidirectional encoder representation from
Image Transformers in Vietnamese and evaluates Vietnamese VQA datasets.
Experimental results demonstrate that our proposed model outperforms the strong
baseline and improves the state-of-the-art in six metrics: Accuracy, Precision,
Recall, F1-score, WUPS 0.0, and WUPS 0.9.
- Abstract(参考訳): VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合し、研究者の興味を引き付ける複雑なタスクである。
英語は豊富な資源で知られており、VQA用に設計されたデータセットとモデルの両方に顕著な進歩が見られる。
しかし、ベトナムなど特定の国をターゲットにしたモデルが不足している。
この制限に対処するために,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを導入する。
このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンスツーシーケンスと双方向エンコーダ表現を含み、ベトナムのvqaデータセットを評価する。
実験の結果,提案手法は,精度,精度,リコール,F1スコア,WUPS 0.0,WUPS 0.9の6つの指標において,強いベースラインを上回り,最先端化を実現していることがわかった。
関連論文リスト
- Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese [0.0]
Vintern-1Bはベトナム語タスクのための信頼性の高いマルチモーダル大言語モデル(MLLM)である。
このモデルは、300万以上の画像検索と回答のペアからなる広範囲なデータセットに基づいて微調整されている。
Vintern-1Bは、様々なデバイス上のアプリケーションに簡単に適合できるほど小さい。
論文 参考訳(メタデータ) (2024-08-22T15:15:51Z) - Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。
画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-07-30T22:32:50Z) - ViHateT5: Enhancing Hate Speech Detection in Vietnamese With A Unified Text-to-Text Transformer Model [0.0]
提案する大規模ドメイン固有データセット VOZ-HSD を事前トレーニングした T5 ベースのモデルである ViHateT5 を紹介する。
ViHateT5はテキストからテキストへのアーキテクチャのパワーを活用することで、統一モデルを使用して複数のタスクに対処し、ベトナムのすべての標準HSDベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-05-23T03:31:50Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Generative Pre-trained Transformer for Vietnamese Community-based
COVID-19 Question Answering [0.0]
GPT(Generative Pre-trained Transformer)は,SOTA(State-of-the-art)質問応答システムにおいて,デコーダとして有効に使用されている。
本稿では,ベトナムにおける新型コロナウイルス関連問合せに焦点を当てたコミュニティベースの質問応答のためのGPT-2の実装について述べる。
論文 参考訳(メタデータ) (2023-10-23T06:14:07Z) - Visual Question Generation in Bengali [0.0]
我々は,ベンガル語で画像が与えられたときに質問を生成するトランスフォーマーベースのエンコーダデコーダアーキテクチャを開発した。
ベンガル語で視覚質問生成タスクのためのアートモデルの最初の状態を確立する。
その結果,画像キャットモデルではBLUE-1スコアが33.12,BLEU-3スコアが7.56であった。
論文 参考訳(メタデータ) (2023-10-12T10:26:26Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。