論文の概要: GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance
- arxiv url: http://arxiv.org/abs/2505.19354v1
- Date: Sun, 25 May 2025 23:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.068656
- Title: GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance
- Title(参考訳): GC-KBVQA:知識に基づく視覚質問応答性能向上のための新しい4段階フレームワーク
- Authors: Mohammad Mahdi Moradi, Sudhir Mudur,
- Abstract要約: 知識に基づく視覚質問回答法(KB-VQA)は、画像に表される明示的なコンテンツを超えて、情報によって推論を要求するタスクに焦点を当てる。
近年のアプローチでは,Large Language Models (LLM) を暗黙の知識源として活用している。
グラウンディングキャプション誘導知識に基づく視覚質問応答(GC-KBVQA)と呼ばれる新しい4段階のフレームワークを紹介する。
イノベーションには、ジェネリックな記述を超えて、コンパクトで詳細でコンテキストに富んだ情報を持つために、質問認識キャプションを生成することが含まれる。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge-Based Visual Question Answering (KB-VQA) methods focus on tasks that demand reasoning with information extending beyond the explicit content depicted in the image. Early methods relied on explicit knowledge bases to provide this auxiliary information. Recent approaches leverage Large Language Models (LLMs) as implicit knowledge sources. While KB-VQA methods have demonstrated promising results, their potential remains constrained as the auxiliary text provided may not be relevant to the question context, and may also include irrelevant information that could misguide the answer predictor. We introduce a novel four-stage framework called Grounding Caption-Guided Knowledge-Based Visual Question Answering (GC-KBVQA), which enables LLMs to effectively perform zero-shot VQA tasks without the need for end-to-end multimodal training. Innovations include grounding question-aware caption generation to move beyond generic descriptions and have compact, yet detailed and context-rich information. This is combined with knowledge from external sources to create highly informative prompts for the LLM. GC-KBVQA can address a variety of VQA tasks, and does not require task-specific fine-tuning, thus reducing both costs and deployment complexity by leveraging general-purpose, pre-trained LLMs. Comparison with competing KB-VQA methods shows significantly improved performance. Our code will be made public.
- Abstract(参考訳): 知識に基づく視覚質問回答法(KB-VQA)は、画像に表される明示的なコンテンツを超えて、情報によって推論を要求するタスクに焦点を当てる。
初期の手法はこの補助情報を提供するために明示的な知識基盤に依存していた。
近年のアプローチでは,Large Language Models (LLM) を暗黙の知識源として活用している。
KB-VQA法は有望な結果を示したが、提供された補助的なテキストは質問コンテキストに関連しない可能性があり、また、回答予測器を誤認する可能性のある無関係な情報も含んでいる可能性があるため、その可能性には制約がある。
我々は,LLMがエンドツーエンドのマルチモーダルトレーニングを必要とせずに,ゼロショットVQAタスクを効果的に実行できるようにする,Gunding Caption-Guided Knowledge-Based Visual Question Answering (GC-KBVQA)と呼ばれる新しい4段階のフレームワークを紹介した。
イノベーションには、ジェネリックな記述を超えて、コンパクトで詳細でコンテキストに富んだ情報を持つために、質問認識キャプションを生成することが含まれる。
これは外部からの知識と組み合わされ、LLMのための非常に情報性の高いプロンプトを生成する。
GC-KBVQAは様々なVQAタスクに対処でき、タスク固有の微調整を必要としない。
KB-VQA法と比較すると,性能は有意に向上した。
私たちのコードは公開されます。
関連論文リスト
- A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task [15.932332484902103]
知識に基づく視覚質問回答(KB-VQA)の拡張型視覚質問回答(VQA)
現在、既存のKB-VQAメソッドを体系的に整理し、レビューする総合的な調査は存在しない。
論文 参考訳(メタデータ) (2025-04-24T13:37:25Z) - Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models [51.47994645529258]
本稿では,問合せをGNNアグリゲーションに組み込んでKG関連性を動的に評価するQAP(QA-Aware Knowledge Graph Prompting)を提案する。
実験の結果、QAPは複数のデータセットで最先端の手法よりも優れており、その有効性を強調している。
論文 参考訳(メタデータ) (2025-03-30T17:09:11Z) - Fine-Grained Retrieval-Augmented Generation for Visual Question Answering [12.622529359686016]
VQA(Visual Question Answering)は、画像からの情報を活用することで、自然言語の質問に対する回答を提供することに焦点を当てている。
外部知識ベース(KB)を活用する検索拡張世代(RAG)が,将来性のあるアプローチとして出現する。
本研究では,テキストスニペットをベクトルデータベースに格納したエンティティイメージにマージする,きめ細かい知識単位を提案する。
論文 参考訳(メタデータ) (2025-02-28T11:25:38Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いたtextbfRetrieval-textbfAugmented MLLMを提案する。
RACCは、与えられた画像検索ペアの取得した知識を圧縮して集約することを学ぶ。
これはOK-VQAで63.92%の最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - A Simple Baseline for Knowledge-Based Visual Question Answering [78.00758742784532]
本稿では,知識に基づく視覚質問応答(KB-VQA)の問題について述べる。
本論文の主な貢献は,よりシンプルで容易に再現可能なパイプラインを提案することである。
近年のアプローチとは対照的に,本手法はトレーニングフリーであり,外部データベースやAPIへのアクセスを必要とせず,OK-VQAおよびA-OK-VQAデータセット上で最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-20T15:08:17Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Make a Choice! Knowledge Base Question Answering with In-Context
Learning [1.7827767384590838]
知識ベースに対する質問応答(KBQA)は、与えられた知識ベース(KB)でファクトイドな質問に答えることを目的としている。
KBの大規模化のため、注釈付きデータはKB内のすべてのファクトスキーマをカバーすることは不可能である。
ICL ベースの多重選択による KBQA 手法に LLM の少数ショット機能を組み込んだフレームワークである McL-KBQA を提案する。
論文 参考訳(メタデータ) (2023-05-23T11:56:03Z) - Prophet: Prompting Large Language Models with Complementary Answer Heuristics for Knowledge-based Visual Question Answering [28.763437313766996]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
Prophet - 知識に基づくVQAの解答を促すために設計された,概念的にシンプルで柔軟な,汎用的なフレームワーク。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - KRISP: Integrating Implicit and Symbolic Knowledge for Open-Domain
Knowledge-Based VQA [107.7091094498848]
VQAの最も難しい質問の1つは、質問に答えるために画像に存在しない外部の知識を必要とする場合です。
本研究では,解答に必要な知識が与えられたり記入されたりしないオープンドメイン知識を,トレーニング時やテスト時にも検討する。
知識表現と推論には2つのタイプがあります。
まず、トランスベースのモデルで教師なし言語事前トレーニングと教師付きトレーニングデータから効果的に学ぶことができる暗黙的な知識。
論文 参考訳(メタデータ) (2020-12-20T20:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。