論文の概要: Zero-shot Visual Question Answering using Knowledge Graph
- arxiv url: http://arxiv.org/abs/2107.05348v3
- Date: Wed, 14 Jul 2021 11:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 11:17:50.876325
- Title: Zero-shot Visual Question Answering using Knowledge Graph
- Title(参考訳): 知識グラフを用いたゼロショット視覚質問応答
- Authors: Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan and
Huajun Chen
- Abstract要約: 本稿では,知識グラフとマスクに基づく学習機構を用いたゼロショットVQAアルゴリズムを提案する。
実験の結果,Zero-shot VQAでは未知の解が得られることがわかった。
- 参考スコア(独自算出の注目度): 19.142028501513366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating external knowledge to Visual Question Answering (VQA) has
become a vital practical need. Existing methods mostly adopt pipeline
approaches with different components for knowledge matching and extraction,
feature learning, etc.However, such pipeline approaches suffer when some
component does not perform well, which leads to error propagation and poor
overall performance. Furthermore, the majority of existing approaches ignore
the answer bias issue -- many answers may have never appeared during training
(i.e., unseen answers) in real-word application. To bridge these gaps, in this
paper, we propose a Zero-shot VQA algorithm using knowledge graphs and a
mask-based learning mechanism for better incorporating external knowledge, and
present new answer-based Zero-shot VQA splits for the F-VQA dataset.
Experiments show that our method can achieve state-of-the-art performance in
Zero-shot VQA with unseen answers, meanwhile dramatically augment existing
end-to-end models on the normal F-VQA task.
- Abstract(参考訳): VQA(Visual Question Answering)に外部知識を組み込むことは、重要な実践的ニーズとなっている。
既存の手法では、知識マッチングや抽出、機能学習など、さまざまなコンポーネントを持つパイプラインアプローチが採用されているが、そのようなパイプラインアプローチは、一部のコンポーネントが正常に動作しない場合に悩まされ、エラーの伝播と全体的なパフォーマンスの低下につながる。
さらに、既存のアプローチの大部分は回答バイアスの問題を無視している -- 実単語アプリケーションでトレーニング中に、多くの回答が現れたことがないかもしれない(すなわち、見当たらない回答)。
本稿では,これらのギャップを埋めるために,知識グラフを用いたゼロショットvqaアルゴリズムと,外部知識の統合性を高めるマスクベース学習機構を提案し,f-vqaデータセットのための新しい回答ベースゼロショットvqa分割を提案する。
実験の結果,Zero-shot VQAでは,従来のF-VQAタスクのエンド・ツー・エンド・モデルを大幅に拡張すると同時に,非表示の回答で最先端の性能を実現することができた。
関連論文リスト
- Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering [42.120558318437475]
短い学習は、モデルがスプリアス統計規則を利用して正しい回答を生成するが、望ましい行動を展開しない場合に起こる。
近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T14:28:22Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。