論文の概要: Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
- arxiv url: http://arxiv.org/abs/2509.06079v1
- Date: Sun, 07 Sep 2025 14:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.848339
- Title: Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge
- Title(参考訳): 科学のためのマルチモーダル推論:ICML 2025 SeePhys Challengeの技術的報告と第1回解決
- Authors: Hao Liang, Ruitao Wu, Bohan Zeng, Junbo Niu, Wentao Zhang, Bin Dong,
- Abstract要約: 視覚的・テキスト的モダリティを効果的に橋渡しするキャプション支援推論フレームワークを提案する。
我々のアプローチは、ICML 2025 AI for Math Workshop & Challenge 2: SeePhysで1位を獲得し、その有効性と堅牢性を強調しました。
- 参考スコア(独自算出の注目度): 13.14311042732615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning remains a fundamental challenge in artificial intelligence. Despite substantial advances in text-based reasoning, even state-of-the-art models such as GPT-o3 struggle to maintain strong performance in multimodal scenarios. To address this gap, we introduce a caption-assisted reasoning framework that effectively bridges visual and textual modalities. Our approach achieved 1st place in the ICML 2025 AI for Math Workshop \& Challenge 2: SeePhys, highlighting its effectiveness and robustness. Furthermore, we validate its generalization on the MathVerse benchmark for geometric reasoning, demonstrating the versatility of our method. Our code is publicly available at https://github.com/OpenDCAI/SciReasoner.
- Abstract(参考訳): マルチモーダル推論は、人工知能の基本的な課題である。
テキストベースの推論の大幅な進歩にもかかわらず、GPT-o3のような最先端のモデルでさえ、マルチモーダルシナリオにおける強力なパフォーマンスを維持するのに苦労している。
このギャップに対処するために、視覚とテキストのモダリティを効果的に橋渡しするキャプション支援推論フレームワークを導入する。
我々のアプローチは、ICML 2025 AI for Math Workshop \& Challenge 2: SeePhysで1位を獲得し、その有効性と堅牢性を強調しました。
さらに,幾何推論のためのMathVerseベンチマークの一般化を検証し,本手法の汎用性を実証した。
私たちのコードはhttps://github.com/OpenDCAI/SciReasoner.comで公開されています。
関連論文リスト
- Towards Solving More Challenging IMO Problems via Decoupled Reasoning and Proving [48.22540519786074]
最近の研究では、非公式な精度は80%を超え、公式な成功はPutnamBenchのようなベンチマークで8%以下である。
低レベルの証明生成から高レベルの推論を分離する新しいフレームワークを提案する。
提案手法は,2000年以降のIMO問題に対して,従来のオープンソース証明者が未報告の課題として評価した。
論文 参考訳(メタデータ) (2025-07-07T22:38:49Z) - MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO [87.52631406241456]
近年のテキスト・ツー・イメージシステムは、マルチモーダル入力や複雑な推論タスクの処理において制限に直面している。
我々は、強化学習による推論生成を取り入れ、これらの課題に対処する統合マルチモーダルな大規模言語モデルであるMind Omniを紹介する。
論文 参考訳(メタデータ) (2025-05-19T12:17:04Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges [25.82535441866882]
本調査は,マルチモーダル大言語モデル(MLLM)の時代における数学的推論の包括的解析である。
2021年以降に出版された200以上の研究を概観し,Math-LLMの最先端の展開について検討する。
特に、マルチモーダルな数学的推論パイプラインと(M)LLMと関連する方法論について検討する。
論文 参考訳(メタデータ) (2024-12-16T16:21:41Z) - A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI [15.480968464853769]
そこで我々は,Maniskill2ベンチマークに基づく2段階ファインチューニング手法を提案する。
本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-07-21T04:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。