論文の概要: OmniScience: A Large-scale Multi-modal Dataset for Scientific Image Understanding
- arxiv url: http://arxiv.org/abs/2602.13758v1
- Date: Sat, 14 Feb 2026 13:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.372679
- Title: OmniScience: A Large-scale Multi-modal Dataset for Scientific Image Understanding
- Title(参考訳): OmniScience:科学画像理解のための大規模マルチモーダルデータセット
- Authors: Haoyi Tao, Chaozheng Huang, Nan Wang, Han Lyu, Linfeng Zhang, Guolin Ke, Xi Fang,
- Abstract要約: OmniScienceは、10以上の主要な科学分野にまたがる高忠実なマルチモーダルデータセットである。
我々は,高密度で自己完結した記述を生成する動的モデルルーチン再カプセル化パイプラインを開発した。
パイプラインは 厳格な品質のフィルタリングと 人間の専門家の判断との整合で強化されている
- 参考スコア(独自算出の注目度): 13.03315906747549
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models demonstrate strong performance on natural image understanding, yet exhibit limited capability in interpreting scientific images, including but not limited to schematic diagrams, experimental characterizations, and analytical charts. This limitation is particularly pronounced in open-source MLLMs. The gap largely stems from existing datasets with limited domain coverage, coarse structural annotations, and weak semantic grounding. We introduce OmniScience, a large-scale, high-fidelity multi-modal dataset comprising 1.5 million figure-caption-context triplets, spanning more than 10 major scientific disciplines. To obtain image caption data with higher information density and accuracy for multi-modal large-model training, we develop a dynamic model-routing re-captioning pipeline that leverages state-of-the-art multi-modal large language models to generate dense, self-contained descriptions by jointly synthesizing visual features, original figure captions, and corresponding in-text references authored by human scientists. The pipeline is further reinforced with rigorous quality filtering and alignment with human expert judgments, ensuring both factual accuracy and semantic completeness, and boosts the image-text multi-modal similarity score from 0.769 to 0.956. We further propose a caption QA protocol as a proxy task for evaluating visual understanding. Under this setting, Qwen2.5-VL-3B model finetuned on OmniScience show substantial gains over baselines, achieving a gain of 0.378 on MM-MT-Bench and a gain of 0.140 on MMMU.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、自然画像の理解に強い性能を示すが、図表、実験的特徴付け、分析チャートなど、科学画像の解釈能力には限界がある。
この制限はオープンソースMLLMでは特に顕著である。
このギャップは、ドメインカバレッジが制限された既存のデータセット、粗い構造アノテーション、弱いセマンティックグラウンドなどに起因する。
OmniScienceは、150万の図形キャプション・コンテクスト三重項からなる大規模で高忠実なマルチモーダルデータセットで、10以上の主要な科学分野にまたがる。
マルチモーダル大規模モデルの訓練において,より高情報密度で精度の高い画像キャプションデータを得るために,最先端のマルチモーダル大規模言語モデルを利用して,視覚的特徴,オリジナル図形キャプション,およびそれに対応する人間科学者によるテキスト参照を共同で合成することにより,密集した自己完結した記述を生成する動的モデルルーティング・リキャプションパイプラインを開発した。
パイプラインは、厳密な品質のフィルタリングと人間の専門家による判断との整合性により強化され、事実精度と意味的完全性の両方が保証され、画像テキストのマルチモーダル類似度スコアが0.769から0.956に向上する。
さらに、視覚的理解を評価するためのプロキシタスクとして、キャプションQAプロトコルを提案する。
この設定の下では、OmniScienceで微調整されたQwen2.5-VL-3Bモデルはベースラインよりも大幅に向上し、MM-MT-Benchで0.378、MMMUで0.140となった。
関連論文リスト
- Multi-Modal LLM based Image Captioning in ICT: Bridging the Gap Between General and Industry Domain [10.823938734002288]
本稿では、ICTにおけるドメイン固有画像キャプチャーモデル(DICModel)の訓練のための多段階プログレッシブトレーニング戦略を提案する。
実験の結果,7Bパラメータしか持たないDICModelは,32Bパラメータを持つ他の最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-14T09:01:46Z) - S1-MMAlign: A Large-Scale, Multi-Disciplinary Dataset for Scientific Figure-Text Understanding [16.351123624587384]
S1-MMAlignは1550万以上の高品質の画像テキストペアからなる大規模で多分野のマルチモーダルデータセットである。
本稿では,Qwen-VL多モード大モデル系列を用いたAI対応セマンティックエンハンスメントパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-01T08:54:51Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。