論文の概要: Innovator-VL: A Multimodal Large Language Model for Scientific Discovery
- arxiv url: http://arxiv.org/abs/2601.19325v1
- Date: Tue, 27 Jan 2026 08:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.241447
- Title: Innovator-VL: A Multimodal Large Language Model for Scientific Discovery
- Title(参考訳): Innovator-VL:科学発見のための多モード大規模言語モデル
- Authors: Zichen Wen, Boxue Yang, Shuang Chen, Yaojie Zhang, Yuhang Han, Junlong Ke, Cong Wang, Yicheng Fu, Jiawang Zhao, Jiangchao Yao, Xi Fang, Zhen Wang, Henxing Cai, Lin Yao, Zhifeng Gao, Yanhui Hong, Nang Yuan, Yixuan Li, Guojiang Zhao, Haoyi Tao, Nan Wang, Han Lyu, Guolin Ke, Ning Liao, Xiaoxing Wang, Kai Chen, Zhiyu Li, Feiyu Xiong, Sihan Hu, Kun Chen, Yanfeng Wang, Weinan E, Linfeng Zhang, Linfeng Zhang,
- Abstract要約: Innovator-VLは、様々な科学的分野の理解と推論を促進するために設計された、科学的多モーダルな大規模言語モデルである。
原理的なトレーニング設計と透過的な方法論により,データ要求を大幅に削減した強力な科学的知性が得られることを示す。
- 参考スコア(独自算出の注目度): 84.15264653078826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Innovator-VL, a scientific multimodal large language model designed to advance understanding and reasoning across diverse scientific domains while maintaining excellent performance on general vision tasks. Contrary to the trend of relying on massive domain-specific pretraining and opaque pipelines, our work demonstrates that principled training design and transparent methodology can yield strong scientific intelligence with substantially reduced data requirements. (i) First, we provide a fully transparent, end-to-end reproducible training pipeline, covering data collection, cleaning, preprocessing, supervised fine-tuning, reinforcement learning, and evaluation, along with detailed optimization recipes. This facilitates systematic extension by the community. (ii) Second, Innovator-VL exhibits remarkable data efficiency, achieving competitive performance on various scientific tasks using fewer than five million curated samples without large-scale pretraining. These results highlight that effective reasoning can be achieved through principled data selection rather than indiscriminate scaling. (iii) Third, Innovator-VL demonstrates strong generalization, achieving competitive performance on general vision, multimodal reasoning, and scientific benchmarks. This indicates that scientific alignment can be integrated into a unified model without compromising general-purpose capabilities. Our practices suggest that efficient, reproducible, and high-performing scientific multimodal models can be built even without large-scale data, providing a practical foundation for future research.
- Abstract(参考訳): Innovator-VLは、多分野にわたる理解と推論を促進しつつ、汎用的な視覚タスクにおける優れた性能を維持しつつ、科学的多モーダルな大規模言語モデルである。
大規模なドメイン固有の事前訓練と不透明なパイプラインに依存する傾向とは対照的に、我々の研究は、原則化されたトレーニング設計と透明な方法論が、データ要求を大幅に削減した強力な科学的知性をもたらすことを実証している。
まず、データ収集、クリーニング、前処理、教師付き微調整、強化学習、評価、詳細な最適化レシピを網羅する、完全透明でエンドツーエンドの再現可能なトレーニングパイプラインを提供する。
これにより、コミュニティによる組織的な拡張が促進される。
第二に、Innovator-VLは、大規模事前学習なしで500万点未満のキュレートされたサンプルを用いて、様々な科学的タスクにおける競争性能を達成し、優れたデータ効率を示す。
これらの結果は、スケーリングを非差別にするのではなく、原則化されたデータ選択によって効果的な推論が達成できることを強調している。
第三に、Innovator-VLは強力な一般化を示し、汎用ビジョン、マルチモーダル推論、科学ベンチマーク上での競争性能を実現している。
これは、汎用能力を損なうことなく、科学的アライメントを統一モデルに統合できることを示唆している。
我々の実践は、大規模データなしでも効率よく再現可能で高性能な科学的マルチモーダルモデルを構築できることを示唆し、将来の研究の実践的基盤となる。
関連論文リスト
- MindGPT-4ov: An Enhanced MLLM via a Multi-Stage Post-Training Paradigm [25.7631608456086]
MindGPT-4ovは、データ生産、モデルトレーニング、効率的なデプロイメントにまたがる一般的なポストトレーニングパラダイムである。
複数のベンチマークにまたがって、最先端のパフォーマンスを低コストで達成する。
MindGPT-4ovは垂直ドメインタスクにおいて優れたユーザエクスペリエンスを示す。
論文 参考訳(メタデータ) (2025-12-02T16:04:11Z) - A Survey on Efficient Vision-Language-Action Models [153.11669266922993]
VLA(Vision-Language-Action Model)は、物理世界の相互作用によってデジタル知識を橋渡しすることを目的とした、インテリジェンスにおける重要なフロンティアである。
これらの課題に緊急に対応する必要性から、この調査は、効率的なビジョン・ランゲージ・アクションモデルに関する最初の包括的なレビューを提示する。
論文 参考訳(メタデータ) (2025-10-27T17:57:33Z) - Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models [63.69856480318313]
AGILEは、対話的なプロセスとしてジグソー解決を定式化し、モデルが環境に徐々に関与できるようにする。
我々は AGILE がジグソータスクの性能を大幅に向上させることを示す。
また、9つの一般的な視覚タスクに対して強力な一般化を示し、平均3.1%の改善を実現した。
論文 参考訳(メタデータ) (2025-10-01T17:58:05Z) - Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - LEGO Co-builder: Exploring Fine-Grained Vision-Language Modeling for Multimodal LEGO Assembly Assistants [22.6701800159627]
我々は、統合されたフレームワークを導入し、ゼロショットおよび微調整された設定下で、主要なビジョンモデルを評価する。
GPT-4oのような高度なモデルでさえ、微細な組み立て作業に苦労し、視覚的理解のギャップを浮き彫りにしていることが明らかとなった。
論文 参考訳(メタデータ) (2025-07-07T22:29:01Z) - Remaining Useful Life Prediction: A Study on Multidimensional Industrial Signal Processing and Efficient Transfer Learning Based on Large Language Models [6.118896920507198]
本稿では,大言語モデル(LLM)をRUL予測に用いる革新的な回帰フレームワークを提案する。
ターボファンエンジンのRUL予測タスクの実験では、提案モデルが最先端(SOTA)法を超越していることが示されている。
微調整のための最小限のターゲットドメインデータでは、モデルは完全なターゲットドメインデータに基づいて訓練されたSOTAメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-10-04T04:21:53Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - ORacle: Large Vision-Language Models for Knowledge-Guided Holistic OR Domain Modeling [41.30327565949726]
ORacleは、汎用ORドメインモデリング用に設計された高度な視覚言語モデルである。
マルチビューとテンポラリな機能を備えており、推論中に外部の知識を活用でき、これまで見つからなかった手術シナリオに適応することができる。
厳密なテスト、シーングラフ生成、および4D-ORデータセットの下流タスクでは、ORacleは最先端のパフォーマンスを示すだけでなく、既存のモデルよりも少ないデータを必要とする。
論文 参考訳(メタデータ) (2024-04-10T14:24:10Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。