論文の概要: BERT-VQA: Visual Question Answering on Plots
- arxiv url: http://arxiv.org/abs/2508.13184v1
- Date: Thu, 14 Aug 2025 00:55:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.635913
- Title: BERT-VQA: Visual Question Answering on Plots
- Title(参考訳): BERT-VQA: プロットに対する視覚的質問応答
- Authors: Tai Vu, Robert Yang,
- Abstract要約: ResNet 101イメージエンコーダを事前訓練した VisualBERT ベースのモデルアーキテクチャであるBERT-VQA を開発した。
LSTM, CNN, 浅い分類器からなるベースラインに対して, 本モデルを訓練し, 評価した。
最終結果は、VisualBERTのクロスモダリティモジュールがプロットコンポーネントと質問句の整合に不可欠である、という私たちのコア仮説を覆した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering has been an exciting challenge in the field of natural language understanding, as it requires deep learning models to exchange information from both vision and language domains. In this project, we aim to tackle a subtask of this problem, namely visual question answering on plots. To achieve this, we developed BERT-VQA, a VisualBERT-based model architecture with a pretrained ResNet 101 image encoder, along with a potential addition of joint fusion. We trained and evaluated this model against a baseline that consisted of a LSTM, a CNN, and a shallow classifier. The final outcome disproved our core hypothesis that the cross-modality module in VisualBERT is essential in aligning plot components with question phrases. Therefore, our work provided valuable insights into the difficulty of the plot question answering challenge as well as the appropriateness of different model architectures in solving this problem.
- Abstract(参考訳): 視覚的質問応答は、視覚領域と言語領域の両方から情報を交換するために、ディープラーニングモデルを必要とするため、自然言語理解の分野でエキサイティングな課題となっている。
本プロジェクトでは,プロットに対する視覚的質問応答という,この問題のサブタスクに取り組むことを目的としている。
これを実現するために,既存のResNet 101イメージエンコーダを備えたVisualBERTベースのモデルアーキテクチャであるBERT-VQAを開発した。
LSTM, CNN, 浅い分類器からなるベースラインに対して, 本モデルを訓練し, 評価した。
最終結果は、VisualBERTのクロスモダリティモジュールがプロットコンポーネントと質問句の整合に不可欠である、という私たちのコア仮説を覆した。
そこで本研究では,プロット質問応答課題の難しさと,この問題の解決における異なるモデルアーキテクチャの適切性について,貴重な知見を得た。
関連論文リスト
- Multimodal Commonsense Knowledge Distillation for Visual Question Answering [12.002744625599425]
本稿では,教師の学習環境に追従したグラフ畳み込みネットワーク(GCN)を通して,共通知識,視覚オブジェクト,質問に対する統一的なグラフを構築する,新しいグラフベースのマルチモーダルコモンセンス知識蒸留フレームワークを提案する。
提案するフレームワークは,教師モデルや学生モデルに対して,さらなる微調整を行なわずに柔軟であり,ScienceQAデータセット上での競争性能を達成している。
論文 参考訳(メタデータ) (2024-11-05T01:37:16Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity
Attention Layer based on BERT [0.5772546394254112]
本研究では,最先端の変圧器ネットワークであるBERTをベースとしたモデルを構築した。
私たちは、テスト精度87.79%のリーダーボードで第1位にランクされています。
論文 参考訳(メタデータ) (2020-08-22T08:04:21Z) - Eliminating Catastrophic Interference with Biased Competition [0.0]
本稿では,複雑なデータセットのマルチタスク特性を活用するモデルを提案する。
このモデルは,新たに作成したデータセット上でのタスク間の破滅的な干渉を排除し,視覚質問応答空間における競合的な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-07-03T16:15:15Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。