論文の概要: Zero-shot Visual Question Answering using Knowledge Graph
- arxiv url: http://arxiv.org/abs/2107.05348v3
- Date: Wed, 14 Jul 2021 11:37:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 11:17:50.876325
- Title: Zero-shot Visual Question Answering using Knowledge Graph
- Title(参考訳): 知識グラフを用いたゼロショット視覚質問応答
- Authors: Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan and
Huajun Chen
- Abstract要約: 本稿では,知識グラフとマスクに基づく学習機構を用いたゼロショットVQAアルゴリズムを提案する。
実験の結果,Zero-shot VQAでは未知の解が得られることがわかった。
- 参考スコア(独自算出の注目度): 19.142028501513366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating external knowledge to Visual Question Answering (VQA) has
become a vital practical need. Existing methods mostly adopt pipeline
approaches with different components for knowledge matching and extraction,
feature learning, etc.However, such pipeline approaches suffer when some
component does not perform well, which leads to error propagation and poor
overall performance. Furthermore, the majority of existing approaches ignore
the answer bias issue -- many answers may have never appeared during training
(i.e., unseen answers) in real-word application. To bridge these gaps, in this
paper, we propose a Zero-shot VQA algorithm using knowledge graphs and a
mask-based learning mechanism for better incorporating external knowledge, and
present new answer-based Zero-shot VQA splits for the F-VQA dataset.
Experiments show that our method can achieve state-of-the-art performance in
Zero-shot VQA with unseen answers, meanwhile dramatically augment existing
end-to-end models on the normal F-VQA task.
- Abstract(参考訳): VQA(Visual Question Answering)に外部知識を組み込むことは、重要な実践的ニーズとなっている。
既存の手法では、知識マッチングや抽出、機能学習など、さまざまなコンポーネントを持つパイプラインアプローチが採用されているが、そのようなパイプラインアプローチは、一部のコンポーネントが正常に動作しない場合に悩まされ、エラーの伝播と全体的なパフォーマンスの低下につながる。
さらに、既存のアプローチの大部分は回答バイアスの問題を無視している -- 実単語アプリケーションでトレーニング中に、多くの回答が現れたことがないかもしれない(すなわち、見当たらない回答)。
本稿では,これらのギャップを埋めるために,知識グラフを用いたゼロショットvqaアルゴリズムと,外部知識の統合性を高めるマスクベース学習機構を提案し,f-vqaデータセットのための新しい回答ベースゼロショットvqa分割を提案する。
実験の結果,Zero-shot VQAでは,従来のF-VQAタスクのエンド・ツー・エンド・モデルを大幅に拡張すると同時に,非表示の回答で最先端の性能を実現することができた。
関連論文リスト
- Exploring Question Decomposition for Zero-Shot VQA [99.32466439254821]
視覚的質問応答のための質問分解戦略について検討する。
モデル記述分解の素早い適用は性能を損なう可能性があることを示す。
モデル駆動選択的分解手法を導入し,予測と誤りの訂正を行う。
論文 参考訳(メタデータ) (2023-10-25T23:23:57Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual
Question Answering [7.947269514522506]
本稿では,ゼロショットVQA性能を向上させるため,BLIP2モデルに着目した様々なプロンプト戦略について検討する。
本研究は,様々な質問テンプレートの有効性,少数例の役割,チェーン・オブ・ソート(CoT)推論の影響,画像キャプションを付加的な視覚的手がかりとして活用することのメリットについて検討する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Beyond Question-Based Biases: Assessing Multimodal Shortcut Learning in
Visual Question Answering [42.120558318437475]
短い学習は、モデルがスプリアス統計規則を利用して正しい回答を生成するが、望ましい行動を展開しない場合に起こる。
近道学習症例の診断を改善するため,視覚質問応答(vqa)の評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T14:28:22Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。