論文の概要: Bridging Vision, Language, and Mathematics: Pictographic Character Reconstruction with Bézier Curves
- arxiv url: http://arxiv.org/abs/2511.00076v1
- Date: Wed, 29 Oct 2025 15:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.565693
- Title: Bridging Vision, Language, and Mathematics: Pictographic Character Reconstruction with Bézier Curves
- Title(参考訳): ブリッジングビジョン、言語、数学:ベジエ曲線を用いた図形的文字再構成
- Authors: Zihao Wan, Pau Tong Lin Xu, Fuwen Luo, Ziyue Wang, Peng Li, Yang Liu,
- Abstract要約: 視覚形式とシンボル構造を組み合わせた画像文字は、この能力の理想的なテストケースを提供する。
各文字はプリミティブの実行可能なプログラムによって表現される数学的領域において、この視覚的認識課題を定式化する。
これはプログラム合成タスクとしてフレーム化され、VLMを訓練して幾何学的画像をB'ezier曲線からなるプログラムに分解する。
- 参考スコア(独自算出の注目度): 10.069779545496266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-language Models (VLMs) have demonstrated strong semantic capabilities, their ability to interpret the underlying geometric structure of visual information is less explored. Pictographic characters, which combine visual form with symbolic structure, provide an ideal test case for this capability. We formulate this visual recognition challenge in the mathematical domain, where each character is represented by an executable program of geometric primitives. This is framed as a program synthesis task, training a VLM to decompile raster images into programs composed of B\'ezier curves. Our model, acting as a "visual decompiler", demonstrates performance superior to strong zero-shot baselines, including GPT-4o. The most significant finding is that when trained solely on modern Chinese characters, the model is able to reconstruct ancient Oracle Bone Script in a zero-shot context. This generalization provides strong evidence that the model acquires an abstract and transferable geometric grammar, moving beyond pixel-level pattern recognition to a more structured form of visual understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)は強い意味的能力を示してきたが、視覚情報の幾何学的構造を解釈する能力は研究されていない。
視覚形式とシンボル構造を組み合わせた画像文字は、この能力の理想的なテストケースを提供する。
この視覚的認識課題を数学的領域で定式化し、各文字は幾何学的プリミティブの実行可能なプログラムによって表現される。
これはプログラム合成タスクとしてフレーム化され、VLMを訓練してラスター画像をB\'ezier曲線からなるプログラムに分解する。
我々のモデルは「視覚的デコンパイラ」として機能し、GPT-4oを含む強力なゼロショットベースラインよりも優れた性能を示す。
最も重要な発見は、現代中国語の文字のみを訓練すると、古いOracle Bone Scriptをゼロショットのコンテキストで再構築できるということだ。
この一般化は、モデルが抽象的かつ伝達可能な幾何学文法を取得し、ピクセルレベルのパターン認識からより構造化された視覚的理解へと移動するという強い証拠を与える。
関連論文リスト
- Disentangling Visual Priors: Unsupervised Learning of Scene Interpretations with Compositional Autoencoder [0.20718016474717196]
本稿では、ドメイン固有言語を用いて、画像形成の先駆的選択を捉えるニューロシンボリックアーキテクチャを提案する。
我々は、その言語でテンプレートプログラムを表現し、畳み込みニューラルネットワークによってシーンから抽出された特徴を用いてパラメータ化を学ぶ。
パラメータ化されたプログラムは、実行されると幾何学的プリミティブを生成し、シーンの内容に対応するようにレンダリングして評価する。
論文 参考訳(メタデータ) (2024-09-15T12:47:39Z) - Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
これにより、視覚エンコーダを使わずに、画像や3次元幾何学に関する意味的な疑問に答えるLLMの能力をテストすることができる。
我々は、最小限の努力で手続き的に構築されたシンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
我々は,プログラムの視覚的アウトプットを判断する能力を評価するため,商用およびオープンソースLCMをベンチマークで評価した。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。