論文の概要: Knowledge Detection by Relevant Question and Image Attributes in Visual
Question Answering
- arxiv url: http://arxiv.org/abs/2306.04938v1
- Date: Thu, 8 Jun 2023 05:08:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:12:44.532759
- Title: Knowledge Detection by Relevant Question and Image Attributes in Visual
Question Answering
- Title(参考訳): 視覚的質問応答における関連質問と画像属性による知識検出
- Authors: Param Ahir, Dr. Hiteishi Diwanji
- Abstract要約: 視覚的質問応答(VQA)は、自然言語処理とコンピュータビジョンの実践を通して追求される多分野の研究課題である。
提案手法は,画像属性と質問特徴を知識導出モジュールの入力とし,正確な回答を提供する画像オブジェクトに関する質問知識のみを検索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual question answering (VQA) is a Multidisciplinary research problem that
pursued through practices of natural language processing and computer vision.
Visual question answering automatically answers natural language questions
according to the content of an image. Some testing questions require external
knowledge to derive a solution. Such knowledge-based VQA uses various methods
to retrieve features of image and text, and combine them to generate the
answer. To generate knowledgebased answers either question dependent or image
dependent knowledge retrieval methods are used. If knowledge about all the
objects in the image is derived, then not all knowledge is relevant to the
question. On other side only question related knowledge may lead to incorrect
answers and over trained model that answers question that is irrelevant to
image. Our proposed method takes image attributes and question features as
input for knowledge derivation module and retrieves only question relevant
knowledge about image objects which can provide accurate answers.
- Abstract(参考訳): 視覚的質問応答(VQA)は、自然言語処理とコンピュータビジョンの実践を通して追求される多分野の研究問題である。
視覚質問応答は、画像の内容に応じて自然言語質問に自動的に答える。
いくつかのテスト質問は、ソリューションを導出するために外部の知識を必要とする。
このような知識に基づくVQAは、様々な手法を用いて画像とテキストの特徴を検索し、それらを組み合わせて答えを生成する。
質問依存または画像依存の知識検索方法のいずれかの知識ベース回答を生成する。
画像内の全てのオブジェクトに関する知識が導出されれば、すべての知識が問題に関係しているとは限らない。
一方、疑問に関連する知識は、誤った答えと、画像に関係のない疑問に答える過度に訓練されたモデルをもたらす可能性がある。
提案手法は,画像属性と質問特徴を知識導出モジュールの入力とし,正確な回答を提供する画像オブジェクトに関する質問知識のみを検索する。
関連論文リスト
- Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - ChiQA: A Large Scale Image-based Real-World Question Answering Dataset
for Multi-Modal Understanding [42.5118058527339]
ChiQAには40万以上の質問と200万以上の質問イメージのペアが含まれている。
ChiQAは、接地、比較、読みなど、言語と視覚の両方を深く理解する必要がある。
ALBEFのような最先端のビジュアル言語モデルを評価し,ChiQAの改善の余地がまだ大きいことを実証した。
論文 参考訳(メタデータ) (2022-08-05T07:55:28Z) - K-VQG: Knowledge-aware Visual Question Generation for Common-sense
Acquisition [64.55573343404572]
K-VQGと呼ばれる新しい知識対応VQGデータセットを提案する。
これは、画像に関する質問が構造化された知識に結びついている最初の大規模で人間の注釈付きデータセットである。
また,質問対象として知識をエンコードし,使用可能な新しいVQGモデルも開発している。
論文 参考訳(メタデータ) (2022-03-15T13:38:10Z) - Can Open Domain Question Answering Systems Answer Visual Knowledge
Questions? [7.442099405543527]
画像中のエンティティを参照するdeictic参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直すことができる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本稿では, (a) 画像解析, (b) 質問の書き直し, (c) テキストによる質問応答に既存のシステムを再利用して, 視覚的な質問に答える潜在的データ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:47:40Z) - An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA [51.639880603821446]
本稿では,知識に基づくVQAのための画像キャプションを用いて,GPT3をプロンプトする簡易かつ効果的なPICaを提案する。
まず、まず、GPT-3が理解できるキャプション(タグ)に変換し、次に、GPT-3を適用してVQAタスクを数ショットで解決する。
PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督された状態を超越している。
論文 参考訳(メタデータ) (2021-09-10T17:51:06Z) - Multi-Modal Answer Validation for Knowledge-Based VQA [44.80209704315099]
外部知識を用いたマルチモーダル回答検証(MAVEx)を提案する。
アイデアは、答え固有の知識検索に基づいて有望な回答候補のセットを検証することです。
難解な知識に基づくVQAデータセットであるOK-VQAを用いた実験により、MAVExが新しい最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2021-03-23T00:49:36Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Generating Natural Questions from Images for Multimodal Assistants [4.930442416763205]
本稿では,画像の内容やメタデータを考慮した多様で意味のある質問を生成するためのアプローチを提案する。
BLEU, METEOR, ROUGE, CIDEr などの標準評価指標を用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-11-17T19:12:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。