論文の概要: Integrating Image Features with Convolutional Sequence-to-sequence
Network for Multilingual Visual Question Answering
- arxiv url: http://arxiv.org/abs/2303.12671v2
- Date: Sun, 3 Sep 2023 14:50:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 06:05:43.876170
- Title: Integrating Image Features with Convolutional Sequence-to-sequence
Network for Multilingual Visual Question Answering
- Title(参考訳): 多言語視覚質問応答のための畳み込み系列ネットワークによる画像特徴の統合
- Authors: Triet Minh Thai, Son T. Luu
- Abstract要約: VQA(Visual Question Answering)は、コンピュータが画像に基づいて入力された質問に対して正しい回答をする必要があるタスクである。
VLSP2022-EVJVQA共有タスクは、Visual Question Answeringタスクを、新たにリリースされたデータセット上の多言語ドメインに格納する。
我々は、この課題をシーケンシャル・ツー・シーケンス学習タスクとしてアプローチし、事前訓練された最先端VQAモデルからのヒントを統合する。
公開テストセットで0.3442点,プライベートテストセットで0.4210点,コンペでは3位となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Answering (VQA) is a task that requires computers to give
correct answers for the input questions based on the images. This task can be
solved by humans with ease but is a challenge for computers. The
VLSP2022-EVJVQA shared task carries the Visual Question Answering task in the
multilingual domain on a newly released dataset: UIT-EVJVQA, in which the
questions and answers are written in three different languages: English,
Vietnamese and Japanese. We approached the challenge as a sequence-to-sequence
learning task, in which we integrated hints from pre-trained state-of-the-art
VQA models and image features with Convolutional Sequence-to-Sequence network
to generate the desired answers. Our results obtained up to 0.3442 by F1 score
on the public test set, 0.4210 on the private test set, and placed 3rd in the
competition.
- Abstract(参考訳): VQA(Visual Question Answering)は、コンピュータが画像に基づいて入力された質問に対して正しい回答をする必要があるタスクである。
このタスクは、人間によって簡単に解決できますが、コンピュータにとってチャレンジです。
vlsp2022-evjvqa共有タスクは、新たにリリースされたデータセットであるuit-evjvqa上で、多言語ドメインの視覚的質問応答タスクを実行する。
我々は,この課題をシーケンシャル・ツー・シークエンス・ラーニング・タスク(Sequence-to-Sequence Learning Task)としてアプローチし,既存のVQAモデルのヒントと画像特徴を畳み込み,所望の回答を生成する。
その結果,公開テストセットでは0.3442点,プライベートテストセットでは0.4210点,コンペティションでは3位となった。
関連論文リスト
- SparrowVQE: Visual Question Explanation for Course Content Understanding [12.926309478839652]
本稿では、視覚的質問説明(VQE)を導入し、VQAの詳細な説明を提供する能力を高める。
我々は,マルチモーダル・プレトレーニング,インストラクション・チューニング,ドメインファインチューニングという3段階のトレーニング機構でモデルを訓練した。
実験結果から,我々のSparrowVQEは,開発したMLVQEデータセットの性能向上と,他の5つのベンチマークVQAデータセットの最先端メソッドのパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2024-11-12T03:25:33Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。
データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。
提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2023-05-07T03:59:31Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z) - Visual Question Answering on Image Sets [70.4472272672716]
本稿では,一般に研究されているシングルイメージVQA問題をマルチイメージ設定に一般化する,画像セット視覚質問応答(ISVQA)の課題を紹介する。
自然言語の質問と画像の集合を入力として、画像の内容に基づいて質問に答えることを目的としている。
質問は1つ以上の画像のオブジェクトと関係、あるいは画像セットによって描かれたシーン全体についてである。
論文 参考訳(メタデータ) (2020-08-27T08:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。