論文の概要: Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering
- arxiv url: http://arxiv.org/abs/2501.12697v1
- Date: Wed, 22 Jan 2025 08:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:40.664371
- Title: Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering
- Title(参考訳): ゼロショット視覚質問応答のための知識グラフとLLMの組み合わせ
- Authors: Qian Tao, Xiaoyang Fan, Yong Xu, Xingquan Zhu, Yufei Tang,
- Abstract要約: ゼロショット視覚質問応答(ZS-VQA)は、トレーニングサンプルを提供することなく、視覚的な質問に答えることを目的としている。
ZS-VQAの既存の研究は、知識グラフや大規模言語モデル(LLM)を外部情報ソースとして活用することを提案した。
ゼロショット視覚質問応答のための知識グラフとLLMを組み合わせた新しい設計を提案する。
- 参考スコア(独自算出の注目度): 20.16172308719101
- License:
- Abstract: Zero-shot visual question answering (ZS-VQA), an emerged critical research area, intends to answer visual questions without providing training samples. Existing research in ZS-VQA has proposed to leverage knowledge graphs or large language models (LLMs), respectively, as external information sources to help VQA model comprehend images and questions. However, LLMs often struggle in accurately interpreting specific question meanings. Meanwhile, although knowledge graph has rich entity relationships, it is challenging to effectively connect entities to individual image content for visual question answers. In this paper, we propose a novel design to combine knowledge graph and LLMs for zero-shot visual question answer. Our approach uses LLMs' powerful understanding capabilities to accurately interpret image content through a strategic question search mechanism. Meanwhile, the knowledge graph is used to expand and connect users' queries to the image content for better visual question answering. An optimization algorithm is further used to determine the optimal weights for the loss functions derived from different information sources, towards a globally optimal set of candidate answers. Experimental results on two benchmark datasets demonstrate that our model achieves state-of-the-art (SOTA) performance. Both source code and benchmark data will be released for public access.
- Abstract(参考訳): 重要分野であるゼロショット視覚質問応答(ZS-VQA)は、トレーニングサンプルを提供することなく、視覚的な質問に答えることを目的としている。
ZS-VQAの既存の研究は、知識グラフや大言語モデル(LLM)を外部情報ソースとして活用し、VQAモデルが画像や疑問を理解するのを助けることを提案している。
しかし、LSMは特定の質問の意味を正確に解釈するのに苦労することが多い。
一方、知識グラフは豊富な実体関係を持つが、視覚的質問応答のための個々の画像コンテンツと実体を効果的に結びつけることは困難である。
本稿では,ゼロショット視覚質問応答のための知識グラフとLLMを組み合わせた新しい設計を提案する。
提案手法では,LLMの強力な理解能力を用いて,戦略的質問探索機構を通じて画像内容を正確に解釈する。
一方、ナレッジグラフは、ユーザのクエリを画像コンテンツに接続し、視覚的な質問応答を改善するために使用される。
さらに最適化アルゴリズムを用いて、異なる情報源から導出される損失関数の最適重み付けを、大域的に最適な解の集合へと決定する。
2つのベンチマークデータセットによる実験結果から,本モデルがSOTA(State-of-the-art)性能を達成することを示す。
ソースコードとベンチマークデータの両方がパブリックアクセス用にリリースされる。
関連論文リスト
- Right this way: Can VLMs Guide Us to See More to Answer Questions? [11.693356269848517]
質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
論文 参考訳(メタデータ) (2024-11-01T06:43:54Z) - Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA [19.6585442152102]
本稿では,知識に基づく視覚的問合せ問題について検討し,その解を求めるためには,モデルが視覚的モダリティに根ざす必要があることを示した。
我々の研究は、複雑な質問をいくつかの単純な質問に置き換えることで、画像からより関連性の高い情報を抽出できることを示した。
論文 参考訳(メタデータ) (2024-06-27T02:19:38Z) - QAGCF: Graph Collaborative Filtering for Q&A Recommendation [58.21387109664593]
質問と回答(Q&A)プラットフォームは通常、ユーザの知識獲得のニーズを満たすために質問と回答のペアを推奨する。
これにより、ユーザの振る舞いがより複雑になり、Q&Aレコメンデーションの2つの課題が提示される。
グラフニューラルネットワークモデルであるQ&Answer Graph Collaborative Filtering (QAGCF)を導入する。
論文 参考訳(メタデータ) (2024-06-07T10:52:37Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。