論文の概要: A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task
- arxiv url: http://arxiv.org/abs/2504.17547v1
- Date: Thu, 24 Apr 2025 13:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.387091
- Title: A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task
- Title(参考訳): 知識に基づく視覚質問応答システムに関する総合的調査:視覚推論課題における知識のライフサイクル
- Authors: Jiaqi Deng, Zonghan Wu, Huan Huo, Guandong Xu,
- Abstract要約: 知識に基づく視覚質問回答(KB-VQA)の拡張型視覚質問回答(VQA)
現在、既存のKB-VQAメソッドを体系的に整理し、レビューする総合的な調査は存在しない。
- 参考スコア(独自算出の注目度): 15.932332484902103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge-based Vision Question Answering (KB-VQA) extends general Vision Question Answering (VQA) by not only requiring the understanding of visual and textual inputs but also extensive range of knowledge, enabling significant advancements across various real-world applications. KB-VQA introduces unique challenges, including the alignment of heterogeneous information from diverse modalities and sources, the retrieval of relevant knowledge from noisy or large-scale repositories, and the execution of complex reasoning to infer answers from the combined context. With the advancement of Large Language Models (LLMs), KB-VQA systems have also undergone a notable transformation, where LLMs serve as powerful knowledge repositories, retrieval-augmented generators and strong reasoners. Despite substantial progress, no comprehensive survey currently exists that systematically organizes and reviews the existing KB-VQA methods. This survey aims to fill this gap by establishing a structured taxonomy of KB-VQA approaches, and categorizing the systems into main stages: knowledge representation, knowledge retrieval, and knowledge reasoning. By exploring various knowledge integration techniques and identifying persistent challenges, this work also outlines promising future research directions, providing a foundation for advancing KB-VQA models and their applications.
- Abstract(参考訳): 知識に基づく視覚質問回答(KB-VQA)は、視覚およびテキスト入力の理解だけでなく、幅広い知識も必要とすることで、一般的な視覚質問回答(VQA)を拡張する。
KB-VQAは、様々なモダリティやソースからの異種情報のアライメント、ノイズや大規模リポジトリからの関連知識の検索、複雑な推論の実行など、ユニークな課題を導入している。
LLM(Large Language Models)の発展に伴い、KB-VQAシステムは、LLMが強力な知識リポジトリ、検索強化ジェネレータ、強力な推論器として機能する、顕著な変換も実施されている。
かなりの進歩にもかかわらず、既存のKB-VQAメソッドを体系的に整理し、レビューする包括的な調査は存在しない。
本調査は、KB-VQAアプローチの構造的分類を確立し、システムを知識表現、知識検索、知識推論といった主要な段階に分類することで、このギャップを埋めることを目的としている。
様々な知識統合手法を探求し、永続的な課題を特定することにより、将来的な研究の方向性を概説し、KB-VQAモデルとその応用を前進させる基盤を提供する。
関連論文リスト
- Fine-Grained Retrieval-Augmented Generation for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - Assessing the Robustness of Retrieval-Augmented Generation Systems in K-12 Educational Question Answering with Knowledge Discrepancies [41.49674849980441]
大規模言語モデルにおける教科書とパラメトリック知識の相違がRAGシステムの有効性を損なう可能性があることを示す。
実アプリケーションにおける知識の相違をシミュレートする質問応答データセットであるEduKDQAを提案する。
その結果,ほとんどのRAGシステムは,知識の相違に対処する上で,大幅な性能低下に悩まされていることがわかった。
論文 参考訳(メタデータ) (2024-12-12T06:38:40Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - A Survey on Complex Knowledge Base Question Answering: Methods,
Challenges and Solutions [41.680033017518376]
知識ベース質問応答(KBQA)は、知識ベース(KB)に関する質問に答えることを目的としている。
複雑なKBQAの典型的な課題と解決策を精巧に要約する。
論文 参考訳(メタデータ) (2021-05-25T03:45:30Z) - Contextualized Knowledge-aware Attentive Neural Network: Enhancing
Answer Selection with Knowledge [77.77684299758494]
ナレッジグラフ(KG)による外部知識による回答選択モデル向上のアプローチを幅広く検討しています。
まず、KGの外部知識とテキスト情報との密接な相互作用を考慮し、QA文表現を学習するコンテキスト知識相互作用学習フレームワークであるナレッジアウェアニューラルネットワーク(KNN)を紹介します。
KG情報の多様性と複雑性に対処するために, カスタマイズされたグラフ畳み込みネットワーク (GCN) を介して構造情報を用いた知識表現学習を改善し, コンテキストベースおよび知識ベースの文表現を総合的に学習する コンテキスト型知識認識型アテンシブニューラルネットワーク (CKANN) を提案する。
論文 参考訳(メタデータ) (2021-04-12T05:52:20Z) - Reasoning over Vision and Language: Exploring the Benefits of
Supplemental Knowledge [59.87823082513752]
本稿では,汎用知識基盤(KB)から視覚言語変換器への知識の注入について検討する。
我々は複数のタスクやベンチマークに対する様々なkbの関連性を実証的に研究する。
この技術はモデルに依存しず、最小限の計算オーバーヘッドで任意の視覚言語変換器の適用可能性を拡張することができる。
論文 参考訳(メタデータ) (2021-01-15T08:37:55Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z) - A Survey on Complex Question Answering over Knowledge Base: Recent
Advances and Challenges [71.4531144086568]
知識ベース(KB)に対する質問回答(QA)は、自然言語の質問に自動的に答えることを目的としている。
研究者は、よりKBのトリプルと制約推論を必要とする単純な質問から複雑な質問へと注意を移した。
論文 参考訳(メタデータ) (2020-07-26T07:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。