論文の概要: Hierarchical Process Reward Models are Symbolic Vision Learners
- arxiv url: http://arxiv.org/abs/2512.03126v1
- Date: Tue, 02 Dec 2025 18:46:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:10:32.330296
- Title: Hierarchical Process Reward Models are Symbolic Vision Learners
- Title(参考訳): 階層的プロセス・リワードモデルは記号的視覚学習者である
- Authors: Shan Zhang, Aotian Chen, Kai Zou, Jindong Gu, Yuan Xue, Anton van den Hengel,
- Abstract要約: 記号型コンピュータビジョンは、明示的な論理規則と構造化された表現を通して図を表現し、機械ビジョンの解釈可能な理解を可能にする。
これは、ピクセルベースのビジュアルモデルと根本的に異なる学習パラダイムを必要とする。
本稿では, インプットダイアグラムをプリミティブにエンコードし, インプットダイアグラムを再構築する自己教師型オートエンコーダを提案する。
- 参考スコア(独自算出の注目度): 56.94353087007494
- License:
- Abstract: Symbolic computer vision represents diagrams through explicit logical rules and structured representations, enabling interpretable understanding in machine vision. This requires fundamentally different learning paradigms from pixel-based visual models. Symbolic visual learners parse diagrams into geometric primitives-points, lines, and shapes-whereas pixel-based learners operate on textures and colors. We propose a novel self-supervised symbolic auto-encoder that encodes diagrams into structured primitives and their interrelationships within the latent space, and decodes them through our executable engine to reconstruct the input diagrams. Central to this architecture is Symbolic Hierarchical Process Reward Modeling, which applies hierarchical step-level parsing rewards to enforce point-on-line, line-on-shape, and shape-on-relation consistency. Since vanilla reinforcement learning exhibits poor exploration in the policy space during diagram reconstruction; we thus introduce stabilization mechanisms to balance exploration and exploitation. We fine-tune our symbolic encoder on downstream tasks, developing a neuro-symbolic system that integrates the reasoning capabilities of neural networks with the interpretability of symbolic models through reasoning-grounded visual rewards. Evaluations across reconstruction, perception, and reasoning tasks demonstrate the effectiveness of our approach: achieving a 98.2% reduction in MSE for geometric diagram reconstruction, surpassing GPT-4o by 0.6% with a 7B model on chart reconstruction, and improving by +13% on the MathGlance perception benchmark, and by +3% on MathVerse and GeoQA reasoning benchmarks.
- Abstract(参考訳): 記号型コンピュータビジョンは、明示的な論理規則と構造化された表現を通して図を表現し、機械ビジョンの解釈可能な理解を可能にする。
これは、ピクセルベースのビジュアルモデルと根本的に異なる学習パラダイムを必要とする。
記号的視覚学習者は図を幾何学的原始点、線、形状に解析し、ピクセルベースの学習者はテクスチャや色を操作する。
本稿では,図を構造化プリミティブとその相互関係を潜在空間内にエンコードする自己教師型自己エンコーダを提案し,それらを実行可能なエンジンで復号し,入力ダイアグラムを再構成する。
このアーキテクチャの中心にあるのは、階層的なステップレベルのパース報酬を適用して、ポイント・オン・ライン、ライン・オン・レイプ、シェイプ・オン・リレーション・一貫性を強制する、記号的階層的プロセス・リワード・モデリングである。
バニラ強化学習はダイアグラム再構築時の政策空間での探索が不十分であることから,探索と利用のバランスをとるための安定化機構を導入する。
我々は、ニューラルネットワークの推論能力と、推論された視覚的報酬を通じてシンボルモデルの解釈可能性を統合するニューロシンボリックシステムを開発する。
幾何図形再構成におけるMSEの98.2%削減、GPT-4oを0.6%上回る7Bモデル、MathGlance知覚ベンチマークで+13%改善、MathVerseおよびGeoQA推論ベンチマークで+3%改善した。
関連論文リスト
- CircuitSense: A Hierarchical Circuit System Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process [29.38618453695266]
エンジニアリング設計は、システム仕様からコンポーネント実装までの階層的な抽象化を通して行われる。
MLLM(Multi-modal Large Language Models)は自然画像のタスクに優れるが、技術図から数学的モデルを抽出する能力はいまだ解明されていない。
textbfCircuitSenseは、コンポーネントレベルのスキーマからシステムレベルのブロックダイアグラムにまたがる8,006以上の問題を通じて、この階層の回路理解を評価するベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T13:32:14Z) - Foundations and Models in Modern Computer Vision: Key Building Blocks in Landmark Architectures [34.542592986038265]
本報告では,コンピュータビジョンにおけるキーデザインパターンの進化を,影響力のある6つの論文から分析する。
本稿では,残差接続を導入したResNetについて概説する。
画像パッチのシーケンスにトランスフォーマーアーキテクチャを適用し,新たなパラダイムを確立したビジョントランスフォーマー(ViT)について検討する。
論文 参考訳(メタデータ) (2025-07-31T09:08:11Z) - Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [67.5600169375126]
ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文 参考訳(メタデータ) (2025-05-29T12:33:11Z) - Emergent Language Symbolic Autoencoder (ELSA) with Weak Supervision to Model Hierarchical Brain Networks [0.12075823996747355]
脳ネットワークには階層的な組織があり、既存のディープラーニングモデルに課題をもたらす複雑性がある。
本稿では,弱い監督と創発的言語(EL)フレームワークによって情報を得るシンボリックオートエンコーダを提案する。
私たちの革新には、文と画像の両方が機能的脳ネットワークの階層構造を正確に反映するように設計された一般化階層的損失関数が含まれています。
論文 参考訳(メタデータ) (2024-04-15T13:51:05Z) - Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。
我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。
このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文 参考訳(メタデータ) (2023-10-03T05:40:56Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Graph-based Neural Modules to Inspect Attention-based Architectures: A
Position Paper [0.0]
encoder-decoderモデルは、モデルウェイトに暗黙的に表される知識の人間による可視化と編集のためのエキサイティングな機会を提供する。
本研究では,ネットワークセグメントを双方向グラフベース表現として抽象化する方法を探究する。
このような双方向グラフ表現は、エンコーダデコーダのパターン認識機能と、グラフ上で実行されるシンボリック推論を活用することにより、新しいニューロシンボリックシステムを実現する。
論文 参考訳(メタデータ) (2022-10-13T15:52:12Z) - pix2rule: End-to-end Neuro-symbolic Rule Learning [84.76439511271711]
本稿では,画像のオブジェクトへの処理,学習関係,論理規則に関する完全なニューロシンボリックな手法を提案する。
主な貢献は、シンボリックリレーションとルールを抽出できるディープラーニングアーキテクチャにおける差別化可能なレイヤである。
我々のモデルは最先端のシンボリックラーナーを超えてスケールし、ディープリレーショナルニューラルネットワークアーキテクチャよりも優れていることを実証する。
論文 参考訳(メタデータ) (2021-06-14T15:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。