論文の概要: TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks
- arxiv url: http://arxiv.org/abs/2511.06283v1
- Date: Sun, 09 Nov 2025 08:37:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.861568
- Title: TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks
- Title(参考訳): TinyChemVL: 効率的な視覚トークン削減と複雑な反応タスクによる化学ビジョンランゲージモデルの改善
- Authors: Xuanle Zhao, Shuxin Zeng, Yinyuan Cai, Xiang Cheng, Duzhen Zhang, Xiuyi Chen, Bo Xu,
- Abstract要約: この研究は、モデルアーキテクチャとタスク複雑性を共同設計することで、化学ドメインのための効率的かつ強力なビジョン言語モデル(VLM)を構築する。
4Bパラメータしか持たないTinyChemVLは、既存のモデルよりも高速な推論とトレーニング速度を示しながら、分子および反応タスクの両方で優れた性能を達成する。
- 参考スコア(独自算出の注目度): 25.14617060799698
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Vision Language Models (VLMs) have demonstrated remarkable capabilities in general visual understanding, their application in the chemical domain has been limited, with previous works predominantly focusing on text and thus overlooking critical visual information, such as molecular structures. Current approaches that directly adopt standard VLMs for chemical tasks suffer from two primary issues: (i) computational inefficiency of processing entire chemical images with non-informative backgrounds. (ii) a narrow scope on molecular-level tasks that restricts progress in chemical reasoning. In this work, we propose \textbf{TinyChemVL}, an efficient and powerful chemical VLM that leverages visual token reduction and reaction-level tasks to improve model efficiency and reasoning capacity. Also, we propose \textbf{ChemRxn-V}, a reaction-level benchmark for assessing vision-based reaction recognition and prediction tasks. Directly predicting reaction products from molecular images poses a non-trivial challenge, as it requires models to integrate both recognition and reasoning capacities. Our results demonstrate that with only 4B parameters, TinyChemVL achieves superior performance on both molecular and reaction tasks while demonstrating faster inference and training speeds compared to existing models. Notably, TinyChemVL outperforms ChemVLM while utilizing only 1/16th of the visual tokens. This work builds efficient yet powerful VLMs for chemical domains by co-designing model architecture and task complexity.
- Abstract(参考訳): 視覚言語モデル(VLM)は、一般的な視覚的理解において顕著な能力を示してきたが、化学領域におけるそれらの応用は限られており、以前の研究は主にテキストに焦点を合わせており、分子構造のような重要な視覚情報を見落としている。
化学タスクに標準VLMを直接採用する現在のアプローチは、次の2つの主要な問題に悩まされている。
(i)非表現的背景による化学画像全体の処理の非効率性。
(II) 化学推論の進歩を制限する分子レベルのタスクの狭い範囲。
本稿では,視覚的トークン低減と反応レベルタスクを活用して,モデル効率と推論能力を向上させる,効率的かつ強力な化学VLMである,textbf{TinyChemVL}を提案する。
また、視覚に基づく反応認識と予測タスクを評価するための反応レベルベンチマークである「textbf{ChemRxn-V}」を提案する。
分子画像から反応生成物を直接予測することは、認識能力と推論能力の両方を統合するモデルを必要とするため、非常に難しい課題である。
以上の結果から,TinyChemVLは分子および反応タスクにおいて,既存のモデルに比べて高速な推論およびトレーニング速度を示しながら,優れた性能を発揮することが示された。
特に、TinyChemVLはChemVLMよりも優れており、視覚トークンの1/16しか利用していない。
この研究は、モデルアーキテクチャとタスクの複雑さを共設計することで、効率的かつ強力な化学ドメインのためのVLMを構築する。
関連論文リスト
- RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning [51.393018266721576]
化学反応図解析(RxnDP)のためのRxnCaptionフレームワークを提案する。
本フレームワークは,従来の座標予測による解析処理を画像キャプション問題に再構成する。
我々は,BBox and Index as Visual Prompt (BIVP) という,最先端の分子検出器である MolYOLO を用いて,分子境界ボックスやインデックスを直接入力画像上に描画する戦略を紹介した。
論文 参考訳(メタデータ) (2025-11-04T09:08:44Z) - Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration [2.9496795797433073]
汎用大言語モデルを用いた分子推論のためのフレームワークを提案する。
本手法は, ユニークな原子識別子を用いて分子構造に対するチェーン・オブ・シント推論をアンカーする。
我々の研究は、理論的に基底付けられた合成データセットを生成する方法も提供する。
論文 参考訳(メタデータ) (2025-10-18T17:27:44Z) - ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge [14.6026550444088]
この研究は化学の特定の分野に焦点をあて、ケミカル・リアソナー LLM, ChemDFM-R を開発した。
まず、原子化知識点の包括的データセットを構築し、モデルの基本原理と化学の論理構造に対する理解を深める。
多様な化学ベンチマークの実験により、ChemDFM-Rは、解釈可能で合理的な出力を提供しながら、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:40:49Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations [43.623140005091535]
我々は、分子構造理解を算術に着想を得た演算でブリッジする推論フレームワークであるChemCoTBenchを紹介する。
ChemCoTBenchは、化学的問題解決を透明でステップバイステップの推論に形式化する。
分子特性最適化と化学反応予測という2つの高影響タスクのモデルを評価する。
論文 参考訳(メタデータ) (2025-05-27T15:15:44Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。