Fugu-MT 論文翻訳(概要): ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

論文の概要: ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

arxiv url: http://arxiv.org/abs/2310.18046v1
Date: Fri, 27 Oct 2023 10:44:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 14:09:32.964163
Title: ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese
Title（参考訳）: ViCLEVR:ベトナムにおける視覚質問応答のためのビジュアル推論データセットとハイブリッドマルチモーダル融合モデル
Authors: Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen
Abstract要約: ベトナムにおける様々な視覚的推論能力を評価するための先駆的な収集であるViCLEVRデータセットを紹介した。我々は、現代の視覚的推論システムの包括的な分析を行い、その強みと限界についての貴重な洞察を提供する。 PhoVITは、質問に基づいて画像中のオブジェクトを識別する総合的なマルチモーダル融合である。
参考スコア（独自算出の注目度）: 1.6340299456362617
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In recent years, Visual Question Answering (VQA) has gained significant attention for its diverse applications, including intelligent car assistance, aiding visually impaired individuals, and document image information retrieval using natural language queries. VQA requires effective integration of information from questions and images to generate accurate answers. Neural models for VQA have made remarkable progress on large-scale datasets, with a primary focus on resource-rich languages like English. To address this, we introduce the ViCLEVR dataset, a pioneering collection for evaluating various visual reasoning capabilities in Vietnamese while mitigating biases. The dataset comprises over 26,000 images and 30,000 question-answer pairs (QAs), each question annotated to specify the type of reasoning involved. Leveraging this dataset, we conduct a comprehensive analysis of contemporary visual reasoning systems, offering valuable insights into their strengths and limitations. Furthermore, we present PhoVIT, a comprehensive multimodal fusion that identifies objects in images based on questions. The architecture effectively employs transformers to enable simultaneous reasoning over textual and visual data, merging both modalities at an early model stage. The experimental findings demonstrate that our proposed model achieves state-of-the-art performance across four evaluation metrics. The accompanying code and dataset have been made publicly accessible at \url{https://github.com/kvt0012/ViCLEVR}. This provision seeks to stimulate advancements within the research community, fostering the development of more multimodal fusion algorithms, specifically tailored to address the nuances of low-resource languages, exemplified by Vietnamese.
Abstract（参考訳）: 近年、視覚障害者支援、自然言語クエリを用いた画像情報検索、視覚障害者支援、画像情報検索など多彩な応用において、視覚質問応答(vqa)が注目されている。 VQAは質問や画像からの効果的な情報の統合を必要とし、正確な回答を生成する。 vqaのニューラルモデルは、英語のようなリソース豊富な言語を中心に、大規模なデータセットで著しく進歩している。この問題を解決するために,ベトナムの様々な視覚的推論能力を評価し,バイアスを軽減したViCLEVRデータセットを紹介した。データセットは26,000以上の画像と30,000の質問回答ペア(QA)で構成され、それぞれが関連する推論のタイプを指定するように注釈付けされている。このデータセットを活用することで、現代の視覚的推論システムの包括的な分析を行い、その強みと限界に関する貴重な洞察を提供する。さらに,質問に基づいて画像中の物体を識別する包括的マルチモーダル融合であるphovitを提案する。このアーキテクチャは変換器を効果的に利用し、テキストデータと視覚データの同時推論を可能にし、初期のモデル段階で両方のモダリティをマージする。実験の結果,提案モデルが4つの評価指標において最先端の性能を実現することが示された。付随するコードとデータセットは \url{https://github.com/kvt0012/ViCLEVR} で公開されている。この条項は研究コミュニティの進歩を刺激し、ベトナムで実証された低リソース言語のニュアンスに対処するために、よりマルチモーダルな融合アルゴリズムの開発を促進することを目的としている。

関連論文リスト

Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison [0.0]
VQA(Visual Question Answering)は、コンピュータビジョンと自然言語処理の交差において重要なタスクとして登場した。本稿では,従来のVQAデータセット,ベースラインモデル,手法,および5つの高度なVQAモデルの比較研究について述べる。
論文参考訳（メタデータ） (2025-02-20T18:45:00Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration [0.40964539027092917]
本研究は,ベトナムの視覚質問応答データセットを用いて実験を行うことにより,ギャップを埋めることを目的とする。画像表現能力を向上し,VVQAシステム全体の性能を向上させるモデルを開発した。実験結果から,本モデルが競合するベースラインを超え,有望な性能を達成できることが示唆された。
論文参考訳（メタデータ） (2024-07-30T22:32:50Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.56689822791777]
KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文参考訳（メタデータ） (2024-06-14T13:07:46Z)
Towards Vision-Language Geo-Foundation Model: A Survey [65.70547895998541]
Vision-Language Foundation Models (VLFMs) は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。本稿では, VLGFMを網羅的にレビューし, この分野の最近の展開を要約し, 分析する。
論文参考訳（メタデータ） (2024-06-13T17:57:30Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文参考訳（メタデータ） (2023-10-17T02:38:09Z)
JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文参考訳（メタデータ） (2023-07-03T02:39:08Z)
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese [2.7528170226206443]
ベトナム初の視覚的質問応答のための大規模データセットであるOpenViVQAデータセットを紹介する。データセットは37,000以上の質問応答ペア(QA)に関連付けられた11,000以上の画像で構成されている。提案手法は,SAAA,MCAN,LORA,M4CなどのSOTAモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2023-05-07T03:59:31Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文参考訳（メタデータ） (2022-06-03T17:52:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。