論文の概要: Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration
- arxiv url: http://arxiv.org/abs/2407.21229v1
- Date: Tue, 30 Jul 2024 22:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 19:14:52.973778
- Title: Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration
- Title(参考訳): 変圧器と畳み込み統合によるベトナム語視覚質問応答の改善
- Authors: Ngoc Son Nguyen, Van Son Nguyen, Tung Le,
- Abstract要約: 本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。
画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Answering (VQA) has recently emerged as a potential research domain, captivating the interest of many in the field of artificial intelligence and computer vision. Despite the prevalence of approaches in English, there is a notable lack of systems specifically developed for certain languages, particularly Vietnamese. This study aims to bridge this gap by conducting comprehensive experiments on the Vietnamese Visual Question Answering (ViVQA) dataset, demonstrating the effectiveness of our proposed model. In response to community interest, we have developed a model that enhances image representation capabilities, thereby improving overall performance in the ViVQA system. Specifically, our model integrates the Bootstrapping Language-Image Pre-training with frozen unimodal models (BLIP-2) and the convolutional neural network EfficientNet to extract and process both local and global features from images. This integration leverages the strengths of transformer-based architectures for capturing comprehensive contextual information and convolutional networks for detailed local features. By freezing the parameters of these pre-trained models, we significantly reduce the computational cost and training time, while maintaining high performance. This approach significantly improves image representation and enhances the performance of existing VQA systems. We then leverage a multi-modal fusion module based on a general-purpose multi-modal foundation model (BEiT-3) to fuse the information between visual and textual features. Our experimental findings demonstrate that our model surpasses competing baselines, achieving promising performance. This is particularly evident in its accuracy of $71.04\%$ on the test set of the ViVQA dataset, marking a significant advancement in our research area. The code is available at https://github.com/nngocson2002/ViVQA.
- Abstract(参考訳): VQA(Visual Question Answering)は、人工知能とコンピュータビジョンの分野で多くの人々の関心を惹きつける、潜在的研究領域として最近登場した。
英語のアプローチが普及しているにもかかわらず、特定の言語、特にベトナム語向けに特別に開発されたシステムが欠如している。
本研究の目的は,ベトナムの視覚質問応答(ViVQA)データセットに関する総合的な実験を行うことで,このギャップを埋めることであり,提案モデルの有効性を実証することである。
コミュニティの関心に応えて、画像表現能力を向上し、VivQAシステム全体の性能を向上させるモデルを開発した。
具体的には,Bootstrapping Language- Image Pre-training と凍結したユニモーダルモデル (BLIP-2) と畳み込みニューラルネットワーク EfficientNet を統合し,画像から局所的特徴とグローバル的特徴の両方を抽出・処理する。
この統合は、トランスフォーマーベースのアーキテクチャの強みを活用して、包括的なコンテキスト情報と、詳細なローカル機能のための畳み込みネットワークをキャプチャする。
これらの事前学習モデルのパラメータを凍結することにより、高い性能を維持しつつ、計算コストとトレーニング時間を著しく削減する。
このアプローチは画像表現を大幅に改善し、既存のVQAシステムの性能を向上させる。
次に、汎用多目的基礎モデル(BEiT-3)に基づく多目的融合モジュールを用いて、視覚的特徴とテキスト的特徴の融合を行う。
実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
これはViVQAデータセットのテストセットで71.04\%の精度で特に顕著であり、我々の研究領域で顕著な進歩を示している。
コードはhttps://github.com/nngocson2002/ViVQA.comで入手できる。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。
提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。
以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文 参考訳(メタデータ) (2024-01-18T12:45:25Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model
for Visual Question Answering in Vietnamese [1.6340299456362617]
ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。
我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。
PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
論文 参考訳(メタデータ) (2023-10-27T10:44:50Z) - BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers
Models for Vietnamese Visual Question Answering [3.0938904602244355]
VQA(Visual Question Answering)は、自然言語処理(NLP)とコンピュータビジョン(CV)を統合した複雑で要求の多いタスクである。
本稿では,BARTPhoBEiTというトランスフォーマーベースのベトナム語モデルを紹介する。
このモデルは、ベトナムのイメージトランスフォーマーから事前訓練されたシーケンス・ツー・シーケンスと双方向エンコーダ表現を含み、ベトナムのVQAデータセットを評価する。
論文 参考訳(メタデータ) (2023-07-28T06:23:32Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。