論文の概要: NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commonsense VQA Tasks
- arxiv url: http://arxiv.org/abs/2508.19724v2
- Date: Thu, 28 Aug 2025 12:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:31.756755
- Title: NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commonsense VQA Tasks
- Title(参考訳): NLKI:Commonsense VQAタスクで小さなVLMを改善するための軽量自然言語知識統合フレームワーク
- Authors: Aritra Dutta, Swapnanil Mukherjee, Deepanway Ghosal, Somak Aditya,
- Abstract要約: ViLT、VisualBERT、FLAVAのような小さな視覚言語モデル(sVLM)は、より大きな生成言語に遅れを取っている。
注意深いコモンセンス知識統合がsVLMに与える影響を検討するため,NLKI(End-to-end framework)を提案する。
微調整されたColBERTv2とオブジェクト情報に富んだプログレッシブ・プロデュース・説明を用いて、幻覚をほとんど切断した。
- 参考スコア(独自算出の注目度): 11.150587073510252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense visual-question answering often hinges on knowledge that is missing from the image or the question. Small vision-language models (sVLMs) such as ViLT, VisualBERT and FLAVA therefore lag behind their larger generative counterparts. To study the effect of careful commonsense knowledge integration on sVLMs, we present an end-to-end framework (NLKI) that (i) retrieves natural language facts, (ii) prompts an LLM to craft natural language explanations, and (iii) feeds both signals to sVLMs respectively across two commonsense VQA datasets (CRIC, AOKVQA) and a visual-entailment dataset (e-SNLI-VE). Facts retrieved using a fine-tuned ColBERTv2 and an object information-enriched prompt yield explanations that largely cut down hallucinations, while lifting the end-to-end answer accuracy by up to 7% (across 3 datasets), making FLAVA and other models in NLKI match or exceed medium-sized VLMs such as Qwen-2 VL-2B and SmolVLM-2.5B. As these benchmarks contain 10-25% label noise, additional finetuning using noise-robust losses (such as symmetric cross entropy and generalised cross entropy) adds another 2.5% in CRIC, and 5.5% in AOKVQA. Our findings expose when LLM-based commonsense knowledge beats retrieval from commonsense knowledge bases, how noise-aware training stabilises small models in the context of external knowledge augmentation, and why parameter-efficient commonsense reasoning is now within reach for 250M models.
- Abstract(参考訳): 常識的な視覚的探求の答えは、画像や質問から欠落している知識に依存していることが多い。
ViLT、VisualBERT、FLAVAのような小さな視覚言語モデル(sVLM)は、それ故により大きな生成モデルよりも遅れている。
注意深いコモンセンス知識統合がsVLMに与える影響を研究するため,NLKI(End-to-end framework)を提案する。
(i)自然言語の事実を検索する
(二)LLMに自然言語の説明作成を促させ、
3)2つの共通センスVQAデータセット (CRIC, AOKVQA) と視覚情報データセット (e-SNLI-VE) をそれぞれsVLMに供給する。
微調整されたColBERTv2とオブジェクト情報により取得されたファクトは、幻覚を大幅に減らし、エンドツーエンドの回答精度を最大7%引き上げ(3つのデータセットにわたって)、NLKIのFLAVAや他のモデルがQwen-2 VL-2BやSmolVLM-2.5Bのような中規模のVLMに一致するか、あるいは超えるようにした。
これらのベンチマークには10-25%のラベルノイズが含まれているため、ノイズ-ローバースト損失(対称的クロスエントロピーや一般化されたクロスエントロピーなど)を使った微調整により、CRICの2.5%、AOKVQAの5.5%が追加されている。
LLMをベースとしたコモンセンス知識がコモンセンス知識ベースからの検索を上回り、ノイズ認識トレーニングが外部知識増強の文脈で小さなモデルを安定化させるか、そしてなぜパラメータ効率の良いコモンセンス推論が2億5000万モデルに到達したのかを明らかにする。
関連論文リスト
- ResNetVLLM-2: Addressing ResNetVLLM's Multi-Modal Hallucinations [0.40964539027092917]
大規模言語モデル (LLM) は自然言語処理 (NLP) のタスクを変換しているが、幻覚に悩まされ、真に正しくないコンテンツを生成する。
この問題は Video-Language Models (VideoLLMs) にも及んでいる。
本稿では,(1) 修正されたLynxモデルを用いて生成したキャプションと地味なビデオ参照のセマンティックアライメントを評価する信頼度検出戦略,(2) 推論中に動的に構築されたアドホックな知識ベースを持つRetrieval-Augmented Generation (RAG) を用いた幻覚緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-04-20T00:10:44Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いたtextbfRetrieval-textbfAugmented MLLMを提案する。
RACCは、与えられた画像検索ペアの取得した知識を圧縮して集約することを学ぶ。
これはOK-VQAで63.92%の最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - Find The Gap: Knowledge Base Reasoning For Visual Question Answering [19.6585442152102]
我々は、知識に基づく視覚的質問応答の分析を行い、その答えが与えられた場合、モデルがそれを視覚的モダリティに根ざす必要がある。
本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。
以上の結果から,LLMは1ホップの推論では強いが,細調整NNモデルと比較して2ホップの推論に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-16T02:11:46Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。