論文の概要: Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.16628v1
- Date: Sat, 20 Sep 2025 11:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.894484
- Title: Enhancing Scientific Visual Question Answering via Vision-Caption aware Supervised Fine-Tuning
- Title(参考訳): ビジョンキャプションを意識した微調整による科学的視覚的質問応答の促進
- Authors: Janak Kapuriya, Anwar Shaikh, Arnav Goel, Medha Hira, Apoorv Singh, Jay Saraf, Sanjana, Vaibhav Nauriyal, Avinash Anand, Zhengkui Wang, Rajiv Ratn Shah,
- Abstract要約: ビジョン・キャプション・アウェアメント・スーパーバイザード・ファインタニング (VCASFT) について紹介する。
VCASFTは、より小さなビジョン言語モデル(VLM)の性能を高めるために設計された学習パラダイムである
様々な言語、主題、分野にまたがる質問からなるScienceQAでベンチマークを行う。
低リソース言語におけるこの手法の有効性をさらに実証するため,2,245の高品質なHindiマルチモーダルQ&AペアからなるデータセットであるHiSciVQAを開発した。
- 参考スコア(独自算出の注目度): 26.89241254462218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduce Vision-Caption aware Supervised FineTuning (VCASFT), a novel learning paradigm designed to enhance the performance of smaller Vision Language Models(VLMs) on scientific visual question answering(VQA) tasks. VCASFT leverages image captions as zero-shot prompts alongside question-answer pairs and instruction-tunes models to yield significant performance improvements. To comprehensively evaluate VCASFT, we benchmark it on ScienceQA, which consists of questions across diverse languages, subjects, and fields, demonstrating its adaptability and effectiveness in a variety of educational contexts. Additionally, to further demonstrate the effectiveness of this technique on lowresource languages, we developed HiSciVQA, a dataset comprising 2,245 high-quality, hand-annotated Hindi multimodal Q&A pairs. This dataset addresses the critical need for low-resource language Q&A datasets and serves as a foundation for testing VCASFT. Additionally, we introduce a novel LLM-based evaluation scheme to evaluate VLMs on HiSciVQA which offers deeper insights into model effectiveness surpassing traditional n-gram matching accuracy metrics. We are committed to advancing the field by open-sourcing all code files and the HiSciVQA dataset for the research community.
- Abstract(参考訳): 本研究では,視覚的質問応答(VQA)タスクにおいて,より小さな視覚言語モデル(VLM)の性能向上を目的とした,新しい学習パラダイムであるVCASFTを紹介する。
VCASFTは、画像キャプションをゼロショットプロンプトとして、質問応答ペアと命令チューニングモデルとともに活用することで、大幅なパフォーマンス向上を実現している。
我々は、VCASFTを総合的に評価するために、様々な言語、主題、分野にまたがる質問からなるScienceQAをベンチマークし、その適応性と様々な教育的文脈における有効性を示す。
さらに,この手法が低リソース言語に対して有効であることを示すために,2,245の高品質なHindiマルチモーダルQ&AペアからなるデータセットであるHiSciVQAを開発した。
このデータセットは、低リソースの言語Q&Aデータセットに対する重要なニーズに対処し、VCASFTをテストする基盤として機能する。
さらに,従来のn-gramマッチング精度の指標を超越したモデルの有効性について,より深い知見を提供するHySciVQA上でのVLMの評価手法を提案する。
研究コミュニティのために、すべてのコードファイルとHiSciVQAデータセットをオープンソース化することで、この分野を前進させることを約束します。
関連論文リスト
- When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs [4.296395082987112]
L-VLM(Large Vision-Language Models)は、様々な視覚や言語タスクにおいて顕著な性能を示す。
小型ビジョンランゲージモデル (Small Vision-Language Models, S-VLM) は効率性を提供するが、より大きなモデルに比べて大きな性能差がある。
本稿では,S-VLM を体系的に改善する新しいフレームワークである Model Parity Aligner (MPA) を紹介する。
論文 参考訳(メタデータ) (2025-09-20T11:12:23Z) - Quality-Driven Curation of Remote Sensing Vision-Language Data via Learned Scoring Models [11.114790704621427]
VLM(Vision-Language Models)は、言語誘導セマンティックを通して、リモートセンシング(RS)画像を解釈する大きな可能性を実証している。
自動品質評価のための大規模RS視覚言語嗜好データに基づいて学習した新しいスコアモデルを提案する。
実験結果から,スコアモデルでランク付けされたデータのトップ30%を有する細調整のCLIPや高度なVLMは,全データ微調整とCLIPスコアに基づくランキング手法と比較して精度が高いことがわかった。
論文 参考訳(メタデータ) (2025-03-02T05:44:56Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [6.798129852396113]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。