論文の概要: Open-Set Knowledge-Based Visual Question Answering with Inference Paths
- arxiv url: http://arxiv.org/abs/2310.08148v1
- Date: Thu, 12 Oct 2023 09:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 12:12:15.897604
- Title: Open-Set Knowledge-Based Visual Question Answering with Inference Paths
- Title(参考訳): 推論経路を用いたオープンセット知識に基づく視覚質問応答
- Authors: Jingru Gan, Xinzhe Han, Shuhui Wang, Qingming Huang
- Abstract要約: 知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
- 参考スコア(独自算出の注目度): 79.55742631375063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an image and an associated textual question, the purpose of
Knowledge-Based Visual Question Answering (KB-VQA) is to provide a correct
answer to the question with the aid of external knowledge bases. Prior KB-VQA
models are usually formulated as a retriever-classifier framework, where a
pre-trained retriever extracts textual or visual information from knowledge
graphs and then makes a prediction among the candidates. Despite promising
progress, there are two drawbacks with existing models. Firstly, modeling
question-answering as multi-class classification limits the answer space to a
preset corpus and lacks the ability of flexible reasoning. Secondly, the
classifier merely consider "what is the answer" without "how to get the
answer", which cannot ground the answer to explicit reasoning paths. In this
paper, we confront the challenge of \emph{explainable open-set} KB-VQA, where
the system is required to answer questions with entities at wild and retain an
explainable reasoning path. To resolve the aforementioned issues, we propose a
new retriever-ranker paradigm of KB-VQA, Graph pATH rankER (GATHER for
brevity). Specifically, it contains graph constructing, pruning, and path-level
ranking, which not only retrieves accurate answers but also provides inference
paths that explain the reasoning process. To comprehensively evaluate our
model, we reformulate the benchmark dataset OK-VQA with manually corrected
entity-level annotations and release it as ConceptVQA. Extensive experiments on
real-world questions demonstrate that our framework is not only able to perform
open-set question answering across the whole knowledge base but provide
explicit reasoning path.
- Abstract(参考訳): 画像と関連するテキスト質問が与えられた場合、KB-VQA(Knowledge-Based Visual Question Answering)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
従来のKB-VQAモデルは通常、学習済みの検索者が知識グラフからテキスト情報や視覚情報を抽出し、候補間で予測を行う。
有望な進歩にもかかわらず、既存のモデルには2つの欠点がある。
第一に、マルチクラス分類としての質問応答のモデル化は、応答空間を事前に設定したコーパスに制限し、柔軟な推論能力に欠ける。
第二に、分類器は単に「答えを得る方法」を使わずに「答えとは何か」を考えるだけで、明確な推論経路を解けない。
そこで,本論文では,kk-vqaの課題に直面する。そこでは,システムでは,ワイルドなエンティティと質問に回答し,説明可能な推論パスを維持することが求められる。
上記の問題を解決するために,KB-VQA, Graph pATH ranker (GATHER for brevity) の新たなレトリバーランサーパラダイムを提案する。
具体的には、グラフ構築、プルーニング、パスレベルのランキングが含まれており、正確な回答を検索するだけでなく、推論プロセスを説明する推論パスも提供する。
モデルを総合的に評価するために、手動で修正されたエンティティレベルのアノテーションでベンチマークデータセットOK-VQAを再構成し、ConceptVQAとしてリリースする。
実世界の質問に関する広範な実験は、我々のフレームワークが知識ベース全体にわたってオープンセットの質問応答を行うだけでなく、明確な推論パスを提供することができることを示している。
関連論文リスト
- Reasoning over Hierarchical Question Decomposition Tree for Explainable
Question Answering [83.74210749046551]
ヘテロジニアス知識統合のための質問分解手法を提案する。
階層的質問分解木(RoHT)を用いた新しい2段階XQAフレームワークを提案する。
複雑なQAデータセットKQA ProとMusiqueの実験は、我々のフレームワークがSOTAメソッドを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-24T11:45:59Z) - DecAF: Joint Decoding of Answers and Logical Forms for Question
Answering over Knowledge Bases [81.19499764899359]
本稿では,論理形式と直解の両方を共同で生成する新しいフレームワークDecAFを提案する。
DecAFはWebQSP、FreebaseQA、GrailQAベンチマークで新しい最先端の精度を実現している。
論文 参考訳(メタデータ) (2022-09-30T19:51:52Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Can Open Domain Question Answering Systems Answer Visual Knowledge
Questions? [7.442099405543527]
画像中のエンティティを参照するdeictic参照句を含む多くの視覚的質問は、"非接地的"な質問として書き直すことができる。
これにより、視覚的質問応答のための既存のテキストベースのOpen Domain Question Answering (QA) システムの再利用が可能になる。
本稿では, (a) 画像解析, (b) 質問の書き直し, (c) テキストによる質問応答に既存のシステムを再利用して, 視覚的な質問に答える潜在的データ効率のアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:47:40Z) - Select, Substitute, Search: A New Benchmark for Knowledge-Augmented
Visual Question Answering [35.855792706139525]
テキストコーパス、知識グラフ、画像にまたがるマルチモーダルIRは、近年の関心事である。
驚くほど多くのクエリは、クロスモーダル情報を統合する能力を評価しません。
我々は新しいデータセットを構築し、OKVQA,viz., S3における重要な構造イディオムに挑戦する。
論文 参考訳(メタデータ) (2021-03-09T17:19:50Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。