論文の概要: SCRA-VQA: Summarized Caption-Rerank for Augmented Large Language Models in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2509.20871v1
- Date: Thu, 25 Sep 2025 08:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.78066
- Title: SCRA-VQA: Summarized Caption-Rerank for Augmented Large Language Models in Visual Question Answering
- Title(参考訳): SCRA-VQA:視覚質問応答における拡張された大言語モデルのための要約キャプション参照
- Authors: Yan Zhang, Jiaqing Lin, Miao Zhang, Kui Xiao, Xiaoju Hou, Yue Zhao, Zhifei Li,
- Abstract要約: 我々は、SCRA-VQA(Summarized Caption-Rerank Augmented VQA)を提案する。
SCRA-VQAは、イメージをキャプションに変換するために、事前訓練された視覚言語モデルを使用している。
キャプションの文脈的な例を生成し、同時にそれらを要約して並べ替え、無関係な情報を除外する。
- 参考スコア(独自算出の注目度): 15.985057987715974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acquiring high-quality knowledge is a central focus in Knowledge-Based Visual Question Answering (KB-VQA). Recent methods use large language models (LLMs) as knowledge engines for answering. These methods generally employ image captions as visual text descriptions to assist LLMs in interpreting images. However, the captions frequently include excessive noise irrelevant to the question, and LLMs generally do not comprehend VQA tasks, limiting their reasoning capabilities. To address this issue, we propose the Summarized Caption-Rerank Augmented VQA (SCRA-VQA), which employs a pre-trained visual language model to convert images into captions. Moreover, SCRA-VQA generates contextual examples for the captions while simultaneously summarizing and reordering them to exclude unrelated information. The caption-rerank process enables LLMs to understand the image information and questions better, thus enhancing the model's reasoning ability and task adaptability without expensive end-to-end training. Based on an LLM with 6.7B parameters, SCRA-VQA performs excellently on two challenging knowledge-based VQA datasets: OK-VQA and A-OKVQA, achieving accuracies of 38.8% and 34.6%. Our code is available at https://github.com/HubuKG/SCRA-VQA.
- Abstract(参考訳): 高品質な知識の獲得は、知識に基づくビジュアル質問回答(KB-VQA)の中心的な焦点である。
近年の手法では,解答のための知識エンジンとして大規模言語モデル (LLM) が用いられている。
これらの手法は一般的に画像のキャプションを視覚テキスト記述として使用し、画像の解釈においてLLMを支援する。
しかしながら、キャプションには問題に無関係な過度なノイズが含まれており、LLMは一般的にVQAタスクを理解しておらず、推論能力が制限されている。
この問題に対処するために,事前学習された視覚言語モデルを用いて画像のキャプションに変換する Summarized Caption-Rerank Augmented VQA (SCRA-VQA) を提案する。
さらに、SCRA-VQAはキャプションの文脈的な例を生成し、同時にそれらを要約して、無関係な情報を除外するように並べ替える。
キャプション・リロード・プロセスにより、LCMは画像情報や質問をよりよく理解し、高価なエンドツーエンドトレーニングなしでモデルの推論能力とタスク適応性を高めることができる。
6.7Bパラメータを持つLLMに基づいて、SCRA-VQAは、OK-VQAとA-OKVQAの2つの挑戦的な知識ベースのVQAデータセットで優れた性能を発揮し、38.8%と34.6%の精度を達成した。
私たちのコードはhttps://github.com/HubuKG/SCRA-VQA.comで公開されています。
関連論文リスト
- GC-KBVQA: A New Four-Stage Framework for Enhancing Knowledge Based Visual Question Answering Performance [0.9208007322096533]
知識に基づく視覚質問回答法(KB-VQA)は、画像に表される明示的なコンテンツを超えて、情報によって推論を要求するタスクに焦点を当てる。
近年のアプローチでは,Large Language Models (LLM) を暗黙の知識源として活用している。
グラウンディングキャプション誘導知識に基づく視覚質問応答(GC-KBVQA)と呼ばれる新しい4段階のフレームワークを紹介する。
イノベーションには、ジェネリックな記述を超えて、コンパクトで詳細でコンテキストに富んだ情報を持つために、質問認識キャプションを生成することが含まれる。
論文 参考訳(メタデータ) (2025-05-25T23:00:30Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts [3.6064695344878093]
視覚的質問応答(VQA)は、視覚と言語の内容を理解し、推論し、推論する必要があるため、AI完全タスクとして知られている。
本稿では,VQAパイプラインの中間プロセスとして画像キャプションを組み込むことによる影響について検討する。
論文 参考訳(メタデータ) (2024-04-12T16:35:23Z) - GeReA: Question-Aware Prompt Captions for Knowledge-based Visual
Question Answering [37.11794716736831]
マルチモーダルな大言語モデル(MLLM)は,視覚的理解能力に優れる大規模言語モデル(LLM)よりも暗黙的な知識エンジンである,と我々は主張する。
InstructBLIPのようなMLLMに問題のある視覚と言語情報を与え、知識関連記述を生成するジェネレーション・レアソン・フレームワークであるGeReAを提案する。
具体的には、質問関連画像領域と質問特化マニュアルプロンプトをMLLMに符号化し、知識関連記述を生成する。
論文 参考訳(メタデータ) (2024-02-04T14:28:23Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。