論文の概要: NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commonsense VQA Tasks
- arxiv url: http://arxiv.org/abs/2508.19724v2
- Date: Thu, 28 Aug 2025 12:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:31.756755
- Title: NLKI: A lightweight Natural Language Knowledge Integration Framework for Improving Small VLMs in Commonsense VQA Tasks
- Title(参考訳): NLKI:Commonsense VQAタスクで小さなVLMを改善するための軽量自然言語知識統合フレームワーク
- Authors: Aritra Dutta, Swapnanil Mukherjee, Deepanway Ghosal, Somak Aditya,
- Abstract要約: ViLT、VisualBERT、FLAVAのような小さな視覚言語モデル(sVLM)は、より大きな生成言語に遅れを取っている。
注意深いコモンセンス知識統合がsVLMに与える影響を検討するため,NLKI(End-to-end framework)を提案する。
微調整されたColBERTv2とオブジェクト情報に富んだプログレッシブ・プロデュース・説明を用いて、幻覚をほとんど切断した。
- 参考スコア(独自算出の注目度): 11.150587073510252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Commonsense visual-question answering often hinges on knowledge that is missing from the image or the question. Small vision-language models (sVLMs) such as ViLT, VisualBERT and FLAVA therefore lag behind their larger generative counterparts. To study the effect of careful commonsense knowledge integration on sVLMs, we present an end-to-end framework (NLKI) that (i) retrieves natural language facts, (ii) prompts an LLM to craft natural language explanations, and (iii) feeds both signals to sVLMs respectively across two commonsense VQA datasets (CRIC, AOKVQA) and a visual-entailment dataset (e-SNLI-VE). Facts retrieved using a fine-tuned ColBERTv2 and an object information-enriched prompt yield explanations that largely cut down hallucinations, while lifting the end-to-end answer accuracy by up to 7% (across 3 datasets), making FLAVA and other models in NLKI match or exceed medium-sized VLMs such as Qwen-2 VL-2B and SmolVLM-2.5B. As these benchmarks contain 10-25% label noise, additional finetuning using noise-robust losses (such as symmetric cross entropy and generalised cross entropy) adds another 2.5% in CRIC, and 5.5% in AOKVQA. Our findings expose when LLM-based commonsense knowledge beats retrieval from commonsense knowledge bases, how noise-aware training stabilises small models in the context of external knowledge augmentation, and why parameter-efficient commonsense reasoning is now within reach for 250M models.
- Abstract(参考訳): 常識的な視覚的探求の答えは、画像や質問から欠落している知識に依存していることが多い。
ViLT、VisualBERT、FLAVAのような小さな視覚言語モデル(sVLM)は、それ故により大きな生成モデルよりも遅れている。
注意深いコモンセンス知識統合がsVLMに与える影響を研究するため,NLKI(End-to-end framework)を提案する。
(i)自然言語の事実を検索する
(二)LLMに自然言語の説明作成を促させ、
3)2つの共通センスVQAデータセット (CRIC, AOKVQA) と視覚情報データセット (e-SNLI-VE) をそれぞれsVLMに供給する。
微調整されたColBERTv2とオブジェクト情報により取得されたファクトは、幻覚を大幅に減らし、エンドツーエンドの回答精度を最大7%引き上げ(3つのデータセットにわたって)、NLKIのFLAVAや他のモデルがQwen-2 VL-2BやSmolVLM-2.5Bのような中規模のVLMに一致するか、あるいは超えるようにした。
これらのベンチマークには10-25%のラベルノイズが含まれているため、ノイズ-ローバースト損失(対称的クロスエントロピーや一般化されたクロスエントロピーなど)を使った微調整により、CRICの2.5%、AOKVQAの5.5%が追加されている。
LLMをベースとしたコモンセンス知識がコモンセンス知識ベースからの検索を上回り、ノイズ認識トレーニングが外部知識増強の文脈で小さなモデルを安定化させるか、そしてなぜパラメータ効率の良いコモンセンス推論が2億5000万モデルに到達したのかを明らかにする。
関連論文リスト
- Unbiased Visual Reasoning with Controlled Visual Inputs [28.155426761798022]
VISTAは、明示的な情報のボトルネックを通じて、推論から認識を分離するフレームワークである。
凍結したVLMセンサは、短い客観的な知覚クエリに制限される。
テキストのみのLLM推論器は、各質問を分解し、クエリを計画し、自然言語で視覚的な事実を集約する。
論文 参考訳(メタデータ) (2025-12-19T18:52:06Z) - Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - ResNetVLLM-2: Addressing ResNetVLLM's Multi-Modal Hallucinations [0.40964539027092917]
大規模言語モデル (LLM) は自然言語処理 (NLP) のタスクを変換しているが、幻覚に悩まされ、真に正しくないコンテンツを生成する。
この問題は Video-Language Models (VideoLLMs) にも及んでいる。
本稿では,(1) 修正されたLynxモデルを用いて生成したキャプションと地味なビデオ参照のセマンティックアライメントを評価する信頼度検出戦略,(2) 推論中に動的に構築されたアドホックな知識ベースを持つRetrieval-Augmented Generation (RAG) を用いた幻覚緩和戦略を提案する。
論文 参考訳(メタデータ) (2025-04-20T00:10:44Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Learning to Compress Contexts for Efficient Knowledge-based Visual Question Answering [44.54319663913782]
圧縮文脈(RACC)を用いたtextbfRetrieval-textbfAugmented MLLMを提案する。
RACCは、与えられた画像検索ペアの取得した知識を圧縮して集約することを学ぶ。
これはOK-VQAで63.92%の最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2024-09-11T15:11:39Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [88.82621231987815]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - Find The Gap: Knowledge Base Reasoning For Visual Question Answering [19.6585442152102]
我々は、知識に基づく視覚的質問応答の分析を行い、その答えが与えられた場合、モデルがそれを視覚的モダリティに根ざす必要がある。
本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。
以上の結果から,LLMは1ホップの推論では強いが,細調整NNモデルと比較して2ホップの推論に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2024-04-16T02:11:46Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Hint-enhanced In-Context Learning wakes Large Language Models up for knowledge-intensive tasks [54.153914606302486]
大規模言語モデル(LLM)の規模拡大に伴い、インコンテキスト学習(ICL)能力が出現した。
我々は、オープンドメイン質問応答におけるICLのパワーを探るため、Hint-enhanced In-Context Learning(HICL)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-03T14:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。