論文の概要: ChemLabs on ChemO: A Multi-Agent System for Multimodal Reasoning on IChO 2025
- arxiv url: http://arxiv.org/abs/2511.16205v1
- Date: Thu, 20 Nov 2025 10:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.568055
- Title: ChemLabs on ChemO: A Multi-Agent System for Multimodal Reasoning on IChO 2025
- Title(参考訳): ChemLabs on ChemO: IChO 2025上でのマルチモーダル推論のためのマルチエージェントシステム
- Authors: Xu Qiang, Shengyuan Bai, Leqing Chen, Zijing Liu, Yu Li,
- Abstract要約: ChemOは、国際化学オリンピック(IChO)2025から開発された新しいベンチマークである。
ChemLabsは、人間の専門家のコラボレーションを模倣する階層的なマルチエージェントフレームワークである。
我々のトップ構成は100点中93.6点に達し、人間の金メダルの閾値を上回ります。
- 参考スコア(独自算出の注目度): 10.434011696348561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Olympiad-level benchmarks in mathematics and physics are crucial testbeds for advanced AI reasoning, but chemistry, with its unique multimodal symbolic language, has remained an open challenge. We introduce ChemO, a new benchmark built from the International Chemistry Olympiad (IChO) 2025. ChemO features two key innovations for automated assessment: Assessment-Equivalent Reformulation (AER), which converts problems requiring visual outputs (e.g., drawing molecules) into computationally tractable formats, and Structured Visual Enhancement (SVE), a diagnostic mechanism to disentangle a model's visual perception capabilities from its core chemical reasoning. To tackle this benchmark, we propose ChemLabs, a hierarchical multi-agent framework that mimics human expert collaboration through specialized agents for problem decomposition, perception, reasoning, and auditing. Experiments on state-of-the-art multimodal models demonstrate that combining SVE with our multi-agent system yields dramatic performance gains. Our top configuration achieves a score of 93.6 out of 100, surpassing an estimated human gold medal threshold and establishing a new state-of-the-art in automated chemical problem-solving. ChemO Dataset: https://huggingface.co/datasets/IDEA-AI4SCI/ChemO
- Abstract(参考訳): 数学と物理学のオリンピックレベルのベンチマークは、先進的なAI推論にとって重要なテストベッドであるが、化学は、その独特なマルチモーダルシンボル言語を持つが、依然としてオープンな課題である。
我々は,国際化学オリンピック(IChO)2025から構築された新しいベンチマークであるChemOを紹介する。
ChemOは、自動アセスメントのための2つの重要な革新を特徴としている。AER(A Assessment-Equivalent Reformulation)は、視覚出力(例えば、分子を描画する)を必要とする問題を計算可能フォーマットに変換するもので、Structured Visual Enhancement(SVE)は、モデルの視覚知覚能力をその中核的な化学的推論から切り離すための診断メカニズムである。
このベンチマークに対処するため、我々はChemLabsを提案する。ChemLabsは階層的なマルチエージェントフレームワークで、問題分解、知覚、推論、監査のための特殊なエージェントを通して、人間の専門家によるコラボレーションを模倣する。
最先端マルチモーダルモデル実験により,SVEとマルチエージェントシステムを組み合わせることで,劇的な性能向上が得られた。
我々のトップ構成は100点中93.6点を達成し、人間の金メダルの閾値を上回り、化学の自動問題解決における新たな最先端の確立を図っている。
ChemO Dataset: https://huggingface.co/datasets/IDEA-AI4SCI/ChemO
関連論文リスト
- oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning [44.36582860924775]
有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを紹介する。
また,ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークoMeSを提案する。
論文 参考訳(メタデータ) (2025-10-09T03:13:31Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。