論文の概要: SpecVQA: A Benchmark for Spectral Understanding and Visual Question Answering in Scientific Images
- arxiv url: http://arxiv.org/abs/2604.28039v1
- Date: Thu, 30 Apr 2026 15:51:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.181378
- Title: SpecVQA: A Benchmark for Spectral Understanding and Visual Question Answering in Scientific Images
- Title(参考訳): SpecVQA:科学画像におけるスペクトル理解と視覚的質問応答のベンチマーク
- Authors: Jialu Shen, Han Lyu, Suyang Zhong, Hanzheng Li, Haoyi Tao, Nan Wang, Changhong Chen, Xi Fang,
- Abstract要約: SpecVQAは、科学的スペクトル理解のマルチモーダルモデルを評価するための専門的な科学的イメージベンチマークである。
本稿では,基本曲線特性を保ちつつ,トークン長を削減するためのスペクトルデータサンプリングと再構成手法を提案する。
この研究は、マルチモーダル大モデルにおけるスペクトル理解を強化するための重要なステップであり、より広い科学的研究とデータ分析に視覚言語モデルを拡張するための有望な方向性を提案する。
- 参考スコア(独自算出の注目度): 3.524427709120397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectra are a prevalent yet highly information-dense form of scientific imagery, presenting substantial challenges to multimodal large language models (MLLMs) due to their unstructured and domain-specific characteristics. Here we introduce SpecVQA, a professional scientific-image benchmark for evaluating multimodal models on scientific spectral understanding, covering 7 representative spectrum types with expert-annotated question-answer pairs. The aim comprises two aspects: spectra scientific QA evaluation and corresponding underlying task evaluation. SpecVQA contains 620 figures and 3100 QA pairs curated from peer-reviewed literature, targeting both direct information extraction and domain-specific reasoning. To effectively reduce token length while preserving essential curve characteristics, we propose a spectral data sampling and interpolation reconstruction approach. Ablation studies further confirm that the approach achieves substantial performance improvements on the proposed benchmark. We test the capability of prominent MLLMs in scientific spectral understanding on our benchmark and present a leaderboard. This work represents an essential step toward enhancing spectral understanding in multimodal large models and suggests promising directions for extending visual-language models to broader scientific research and data analysis.
- Abstract(参考訳): スペクトルは、多言語大言語モデル(MLLM)の非構造的・ドメイン特有な特徴から、重要な課題を提示する科学画像として広く使われているが、非常に情報に富んだ形態である。
ここでは, 科学的スペクトル理解に基づくマルチモーダルモデル評価のための専門的な科学的イメージベンチマークであるSpecVQAを紹介する。
目的は、スペクトル科学的QA評価とそれに対応するタスク評価の2つの側面からなる。
SpecVQAには、620の数字と3100のQAペアがあり、直接情報抽出とドメイン固有の推論の両方をターゲットにしている。
基本曲線特性を保ちながらトークン長を効果的に削減するために,スペクトルデータサンプリングと補間再構成手法を提案する。
アブレーション研究は、提案したベンチマークにおいて、このアプローチが大幅な性能改善を実現することをさらに確認する。
我々は,我々のベンチマークにおける科学的スペクトル理解における顕著なMLLMの能力を検証し,リーダーボードを提示する。
この研究は、マルチモーダル大モデルにおけるスペクトル理解を強化するための重要なステップであり、より広い科学的研究とデータ分析に視覚言語モデルを拡張するための有望な方向性を提案する。
関連論文リスト
- HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing [22.804236694410367]
マルチモーダルな大言語モデル(MLLM)は、自然画像の理解において大きな進歩を遂げてきたが、ハイパースペクトル画像(HSI)よりも知覚し、推論する能力はいまだ研究されていない。
HSI理解においてMLLMを評価するために設計された最初のベンチマークであるHyperspectral Multimodal Benchmark (HM-Bench)を紹介する。
基本認識からスペクトル推論まで,13のタスクカテゴリにまたがる19,337の質問応答対の大規模データセットをキュレートする。
論文 参考訳(メタデータ) (2026-04-10T02:47:32Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - DiffSpectra: Molecular Structure Elucidation from Spectra using Diffusion Models [68.19129717255053]
本稿では、分子構造解明を条件生成プロセスとして定式化する生成フレームワークであるDiffSpectraについて述べる。
我々の実験では、DiffSpectraが分子構造を正確に解明し、40.76%のトップ-1と99.49%のトップ10を達成している。
論文 参考訳(メタデータ) (2025-07-09T13:57:20Z) - SpecCLIP: Aligning and Translating Spectroscopic Measurements for Stars [6.314253302704276]
我々は、LLMにインスパイアされた方法論を恒星スペクトル分析に拡張する基盤モデルフレームワークであるSpecCLIPを提案する。
大規模データセットの基盤モデルをトレーニングすることで、さまざまな下流アプリケーションをサポートする堅牢で情報に富んだ埋め込みを学ぶことが私たちのゴールです。
これらのモデルを中規模ラベル付きデータセットに微調整することで、恒星パラメータ推定や化学特性決定といったタスクへの適応性が向上することを示した。
論文 参考訳(メタデータ) (2025-07-02T17:49:52Z) - SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。
既存のMLLMは3次元空間認識と理解能力を持っているか?
論文 参考訳(メタデータ) (2025-05-22T17:59:03Z) - CARL: Camera-Agnostic Representation Learning for Spectral Image Analysis [69.02751635551724]
スペクトルイメージングは、医療や都市景観の理解など、様々な領域で有望な応用を提供する。
スペクトルカメラのチャネル次元と捕獲波長のばらつきは、AI駆動方式の開発を妨げる。
本稿では,RGB,マルチスペクトル,ハイパースペクトル画像を用いたカメラ非依存表現学習モデルCARLを紹介する。
論文 参考訳(メタデータ) (2025-04-27T13:06:40Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。