論文の概要: CodePercept: Code-Grounded Visual STEM Perception for MLLMs
- arxiv url: http://arxiv.org/abs/2603.10757v1
- Date: Wed, 11 Mar 2026 13:32:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.965768
- Title: CodePercept: Code-Grounded Visual STEM Perception for MLLMs
- Title(参考訳): CodePercept: MLLMのためのコード収集型ビジュアルSTEM知覚
- Authors: Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang,
- Abstract要約: 本研究は,強力な知覚媒体としてのコードを確立することにより,MLLMの知覚能力を体系的に向上することに焦点を当てる。
具体的には、1Mイメージ・キャプション・コード・トリプルからなる大規模データセットであるICC-1Mを構築した。
さらに、STEMドメインの視覚的知覚を直接評価する新しいベンチマークであるSTEM2Code-Evalを紹介する。
- 参考スコア(独自算出の注目度): 53.60065070334941
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When MLLMs fail at Science, Technology, Engineering, and Mathematics (STEM) visual reasoning, a fundamental question arises: is it due to perceptual deficiencies or reasoning limitations? Through systematic scaling analysis that independently scales perception and reasoning components, we uncover a critical insight: scaling perception consistently outperforms scaling reasoning. This reveals perception as the true lever limiting current STEM visual reasoning. Motivated by this insight, our work focuses on systematically enhancing the perception capabilities of MLLMs by establishing code as a powerful perceptual medium--executable code provides precise semantics that naturally align with the structured nature of STEM visuals. Specifically, we construct ICC-1M, a large-scale dataset comprising 1M Image-Caption-Code triplets that materializes this code-as-perception paradigm through two complementary approaches: (1) Code-Grounded Caption Generation treats executable code as ground truth for image captions, eliminating the hallucinations inherent in existing knowledge distillation methods; (2) STEM Image-to-Code Translation prompts models to generate reconstruction code, mitigating the ambiguity of natural language for perception enhancement. To validate this paradigm, we further introduce STEM2Code-Eval, a novel benchmark that directly evaluates visual perception in STEM domains. Unlike existing work relying on problem-solving accuracy as a proxy that only measures problem-relevant understanding, our benchmark requires comprehensive visual comprehension through executable code generation for image reconstruction, providing deterministic and verifiable assessment. Code is available at https://github.com/TongkunGuan/Qwen-CodePercept.
- Abstract(参考訳): MLLMがSTEM(Science, Technology, Engineering, and Mathematics)の視覚的推論で失敗すると、根本的な疑問が生まれます。
独立して知覚と推論コンポーネントをスケールする体系的なスケーリング分析を通じて、私たちは重要な洞察を見出します。
これにより、現在のSTEM視覚的推論を制限する真のレバーとしての認識が明らかになる。
本研究は,STEM視覚の構造的性質と自然に整合したセマンティックスを提供する,強力な知覚媒体としてコードを確立することで,MLLMの知覚能力を体系的に向上することに焦点を当てる。
具体的には,(1)コード・グラウンド・キャプション生成(Code-Grounded Caption Generation)は,既存の知識蒸留法に固有の幻覚を排除し,(2)STEMイメージ・トゥ・コード翻訳(STEM)はモデルに再構成コードの生成を促し,知覚強調のための自然言語のあいまいさを緩和する,という2つの補完的なアプローチを通じて,このコード・アズ・パーセプションパラダイムを具体化する大規模データセットであるICC-1Mを構築した。
このパラダイムを検証するために、STEMドメインの視覚的知覚を直接評価する新しいベンチマークであるSTEM2Code-Evalを導入する。
問題関連理解のみを測定するプロキシとして問題解決精度に依存している既存の作業とは異なり、我々のベンチマークでは、画像再構成のための実行可能なコード生成を通じて包括的な視覚的理解が必要であり、決定論的かつ検証可能な評価を提供する。
コードはhttps://github.com/TongkunGuan/Qwen-CodePerceptで入手できる。
関連論文リスト
- CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding [24.71096142371054]
大規模な言語モデル(LLM)は、ソースコード理解において大きな成功を収めています。
ソフトウェアシステムが大規模に成長するにつれ、計算効率は重要なボトルネックとなっている。
論文 参考訳(メタデータ) (2026-02-02T08:10:21Z) - Toward Cognitive Supersensing in Multimodal Large Language Model [67.15559571626747]
我々は,MLLMに人間のような視覚的特徴を付与する訓練パラダイムであるCognitive Supersensingを紹介する。
実験では、CogSense-BenchでCognitive Supersensingを訓練したMLLMが、最先端のベースラインを大きく上回った。
私たちはCogSense-Benchとモデルウェイトをオープンソースにします。
論文 参考訳(メタデータ) (2026-02-02T02:19:50Z) - A Systematic Literature Review of Code Hallucinations in LLMs: Characterization, Mitigation Methods, Challenges, and Future Directions for Reliable AI [54.34738767990601]
大規模言語モデルがソフトウェアエンジニアリングタスクに統合されるにつれ、コードの幻覚の理解と緩和が不可欠になる。
コード指向LLMにおける幻覚現象を4つの重要な観点から体系的に検討する。
論文 参考訳(メタデータ) (2025-11-02T02:58:41Z) - RECODE: Reasoning Through Code Generation for Visual Question Answering [68.86938437188964]
我々は、検証可能な視覚的推論のための新しいモダリティとして、視覚を実行可能コードにリバースエンジニアリングするプロセスであるデレンダリングを活用することを提案する。
我々の研究は、実行可能コードにおける視覚的認識の基盤が、より正確で検証可能なマルチモーダル推論への新たな道を提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T17:05:37Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [55.65083505741497]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Symbol-LLM: Leverage Language Models for Symbolic System in Visual Human
Activity Reasoning [58.5857133154749]
本稿では,広い範囲のシンボルと合理的なルールを持つ新しい記号体系を提案する。
我々は,LLMの最近の進歩を2つの理想的な性質の近似として活用する。
本手法は,広範囲な活動理解タスクにおいて優位性を示す。
論文 参考訳(メタデータ) (2023-11-29T05:27:14Z) - Leveraging Systematic Knowledge of 2D Transformations [6.668181653599057]
人間は、たとえ画像のシーンが珍しいとしても、画像を解釈する素晴らしい能力を持っている。
本研究は,1)2次元変換の体系的知識の獲得,2)画像分類タスクにおける学習知識を活用可能なアーキテクチャコンポーネントに焦点を当てる。
論文 参考訳(メタデータ) (2022-06-02T06:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。