論文の概要: Augmenting Visual Question Answering with Semantic Frame Information in
a Multitask Learning Approach
- arxiv url: http://arxiv.org/abs/2001.11673v1
- Date: Fri, 31 Jan 2020 06:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 05:36:40.122056
- Title: Augmenting Visual Question Answering with Semantic Frame Information in
a Multitask Learning Approach
- Title(参考訳): マルチタスク学習における意味フレーム情報を用いた視覚的質問応答の強化
- Authors: Mehrdad Alizadeh, Barbara Di Eugenio
- Abstract要約: 本稿では,CNN-LSTM VQAモデルを提案する。
実験により,VQAシステムでは不整合応答が回避され,性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 1.827510863075184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Question Answering (VQA) concerns providing answers to Natural
Language questions about images. Several deep neural network approaches have
been proposed to model the task in an end-to-end fashion. Whereas the task is
grounded in visual processing, if the question focuses on events described by
verbs, the language understanding component becomes crucial. Our hypothesis is
that models should be aware of verb semantics, as expressed via semantic role
labels, argument types, and/or frame elements. Unfortunately, no VQA dataset
exists that includes verb semantic information. Our first contribution is a new
VQA dataset (imSituVQA) that we built by taking advantage of the imSitu
annotations. The imSitu dataset consists of images manually labeled with
semantic frame elements, mostly taken from FrameNet. Second, we propose a
multitask CNN-LSTM VQA model that learns to classify the answers as well as the
semantic frame elements. Our experiments show that semantic frame element
classification helps the VQA system avoid inconsistent responses and improves
performance.
- Abstract(参考訳): VQA(Visual Question Answering)は、自然言語による画像に関する質問に対する回答を提供する。
タスクをエンドツーエンドでモデル化するために、いくつかのディープニューラルネットワークアプローチが提案されている。
タスクは視覚処理に基礎を置いているが、動詞によって記述されたイベントに焦点が当てられた場合、言語理解コンポーネントは重要になる。
我々の仮説では、モデルは意味的役割ラベル、引数タイプ、および/またはフレーム要素を介して表現されるように、動詞の意味を意識すべきである。
残念ながら、動詞の意味情報を含むVQAデータセットは存在しない。
最初のコントリビューションは、imSituアノテーションを利用して構築した新しいVQAデータセット(imSituVQA)です。
imSituデータセットは、主にFrameNetから取得したセマンティックフレーム要素で手動でラベル付けされたイメージで構成されている。
次に,マルチタスクCNN-LSTM VQAモデルを提案する。
実験により,VQAシステムでは不整合応答が回避され,性能が向上することがわかった。
関連論文リスト
- SADL: An Effective In-Context Learning Method for Compositional Visual QA [22.0603596548686]
大規模視覚言語モデル(LVLM)は、ビジュアルQAでコンテキスト内学習(ICL)を実行するための新しい機能を提供する。
本稿では,タスクのための新しい視覚言語プロンプトフレームワークであるSADLを紹介する。
論文 参考訳(メタデータ) (2024-07-02T06:41:39Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Syntax Tree Constrained Graph Network for Visual Question Answering [14.059645822205718]
Visual Question Answering (VQA)は、与えられた画像コンテンツに関連する自然言語の質問に自動的に答えることを目的としている。
本稿では、エンティティメッセージパッシングと構文木に基づくVQAのための新しい構文木制約グラフネットワーク(STCGN)を提案する。
次に、フレーズ認識型視覚エンティティのためのメッセージパッシング機構を設計し、与えられた視覚コンテキストに応じてエンティティ特徴をキャプチャする。
論文 参考訳(メタデータ) (2023-09-17T07:03:54Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Text-Aware Dual Routing Network for Visual Question Answering [11.015339851906287]
既存のアプローチはしばしば、疑問に答えるために画像中のテキストを読み、理解する必要がある場合に失敗する。
本稿では,入力画像中のテキスト情報を理解しないVQA事例を同時に処理するテキスト認識デュアルルーティングネットワーク(TDR)を提案する。
テキスト理解を伴うブランチでは,画像中のテキストの理解を支援するために,OCR(Optical Character Recognition)機能をモデルに組み込む。
論文 参考訳(メタデータ) (2022-11-17T02:02:11Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - CapWAP: Captioning with a Purpose [56.99405135645775]
我々は、CapWAP(Captioning with a Purpose)という新しいタスクを提案する。
私たちのゴールは、意図した人口の情報ニーズに合うように調整可能なシステムを開発することです。
目的とする情報に直接最適化するために強化学習を利用することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-09T09:23:55Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。