論文の概要: CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process
- arxiv url: http://arxiv.org/abs/2509.22339v1
- Date: Fri, 26 Sep 2025 13:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.459897
- Title: CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process
- Title(参考訳): CircuitSense: 設計プロセスにおける視覚的理解とシンボリック推論をブレンドする階層回路システムベンチマーク
- Authors: Arman Akbari, Jian Gao, Yifei Zou, Mei Yang, Jinru Duan, Dmitrii Torbunov, Yanzhi Wang, Yihui Ren, Xuan Zhang,
- Abstract要約: エンジニアリング設計は、システム仕様からコンポーネント実装までの階層的な抽象化を通して行われる。
MLLM(Multi-modal Large Language Models)は自然画像のタスクに優れるが、技術図から数学的モデルを抽出する能力はいまだ解明されていない。
textbfCircuitSenseは、コンポーネントレベルのスキーマからシステムレベルのブロックダイアグラムにまたがる8,006以上の問題を通じて、この階層の回路理解を評価するベンチマークである。
- 参考スコア(独自算出の注目度): 29.38618453695266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engineering design operates through hierarchical abstraction from system specifications to component implementations, requiring visual understanding coupled with mathematical reasoning at each level. While Multi-modal Large Language Models (MLLMs) excel at natural image tasks, their ability to extract mathematical models from technical diagrams remains unexplored. We present \textbf{CircuitSense}, a comprehensive benchmark evaluating circuit understanding across this hierarchy through 8,006+ problems spanning component-level schematics to system-level block diagrams. Our benchmark uniquely examines the complete engineering workflow: Perception, Analysis, and Design, with a particular emphasis on the critical but underexplored capability of deriving symbolic equations from visual inputs. We introduce a hierarchical synthetic generation pipeline consisting of a grid-based schematic generator and a block diagram generator with auto-derived symbolic equation labels. Comprehensive evaluation of six state-of-the-art MLLMs, including both closed-source and open-source models, reveals fundamental limitations in visual-to-mathematical reasoning. Closed-source models achieve over 85\% accuracy on perception tasks involving component recognition and topology identification, yet their performance on symbolic derivation and analytical reasoning falls below 19\%, exposing a critical gap between visual parsing and symbolic reasoning. Models with stronger symbolic reasoning capabilities consistently achieve higher design task accuracy, confirming the fundamental role of mathematical understanding in circuit synthesis and establishing symbolic reasoning as the key metric for engineering competence.
- Abstract(参考訳): エンジニアリング設計は、システム仕様からコンポーネント実装までの階層的な抽象化を通じて動作し、各レベルでの数学的推論と視覚的理解を必要とする。
MLLM(Multi-modal Large Language Models)は自然画像のタスクに優れるが、技術図から数学的モデルを抽出する能力はいまだ解明されていない。
本稿では,コンポーネントレベルスキーマからシステムレベルブロックダイアグラムにまたがる8,006以上の問題を通じて,この階層の回路理解を総合的に評価するベンチマークである「textbf{CircuitSense}」を提案する。
我々のベンチマークでは、認識、分析、設計という完全なエンジニアリングのワークフローを、視覚的な入力から記号方程式を導出する批判的だが未探索の能力に特に重点を置いて、一意に検討している。
本稿では,グリッド型スキーマ生成器とブロックダイアグラム生成器からなる階層型合成生成パイプラインを提案する。
クローズドソースモデルとオープンソースモデルの両方を含む6つの最先端MLLMの包括的評価は、視覚-数学的推論における根本的な限界を明らかにする。
クローズドソースモデルは、コンポーネント認識とトポロジ識別を含む知覚タスクにおいて、85パーセント以上の精度を達成するが、それらのシンボルの導出と解析的推論のパフォーマンスは19パーセント以下となり、視覚的パーシングと記号的推論の間に重要なギャップを露呈する。
より強力なシンボリック推論能力を持つモデルは、設計タスクの精度を常に向上させ、回路合成における数学的理解の基本的な役割を確認し、エンジニアリング能力の重要な指標としてシンボリック推論を確立する。
関連論文リスト
- Systematic Abductive Reasoning via Diverse Relation Representations in Vector-symbolic Architecture [10.27696004820717]
ベクトルシンボリックアーキテクチャ(VSA)における多様な関係表現(Rel-SAR)を持つ体系的帰納的推論モデルを提案する。
記号的推論ポテンシャルを持つ表現を導出するために、様々な種類の原子ベクトルが数値的、周期的、論理的意味論を表すだけでなく、構造化された高次元表現(S)も導入する。
体系的推論のために,これらの関係表現を統合する統一フレームワークにおいて,新しい数値および論理関数を提案し,規則の推論と一般化の実行を行う。
論文 参考訳(メタデータ) (2025-01-21T05:17:08Z) - The Role of Foundation Models in Neuro-Symbolic Learning and Reasoning [54.56905063752427]
Neuro-Symbolic AI(NeSy)は、AIシステムの安全なデプロイを保証することを約束している。
ニューラルネットワークとシンボリックコンポーネントを順次トレーニングする既存のパイプラインは、広範なラベリングを必要とする。
新しいアーキテクチャであるNeSyGPTは、生データから象徴的特徴を抽出する視覚言語基盤モデルを微調整する。
論文 参考訳(メタデータ) (2024-02-02T20:33:14Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。