論文の概要: Bridging Vision, Language, and Mathematics: Pictographic Character Reconstruction with Bézier Curves
- arxiv url: http://arxiv.org/abs/2511.00076v1
- Date: Wed, 29 Oct 2025 15:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.565693
- Title: Bridging Vision, Language, and Mathematics: Pictographic Character Reconstruction with Bézier Curves
- Title(参考訳): ブリッジングビジョン、言語、数学:ベジエ曲線を用いた図形的文字再構成
- Authors: Zihao Wan, Pau Tong Lin Xu, Fuwen Luo, Ziyue Wang, Peng Li, Yang Liu,
- Abstract要約: 視覚形式とシンボル構造を組み合わせた画像文字は、この能力の理想的なテストケースを提供する。
各文字はプリミティブの実行可能なプログラムによって表現される数学的領域において、この視覚的認識課題を定式化する。
これはプログラム合成タスクとしてフレーム化され、VLMを訓練して幾何学的画像をB'ezier曲線からなるプログラムに分解する。
- 参考スコア(独自算出の注目度): 10.069779545496266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Vision-language Models (VLMs) have demonstrated strong semantic capabilities, their ability to interpret the underlying geometric structure of visual information is less explored. Pictographic characters, which combine visual form with symbolic structure, provide an ideal test case for this capability. We formulate this visual recognition challenge in the mathematical domain, where each character is represented by an executable program of geometric primitives. This is framed as a program synthesis task, training a VLM to decompile raster images into programs composed of B\'ezier curves. Our model, acting as a "visual decompiler", demonstrates performance superior to strong zero-shot baselines, including GPT-4o. The most significant finding is that when trained solely on modern Chinese characters, the model is able to reconstruct ancient Oracle Bone Script in a zero-shot context. This generalization provides strong evidence that the model acquires an abstract and transferable geometric grammar, moving beyond pixel-level pattern recognition to a more structured form of visual understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)は強い意味的能力を示してきたが、視覚情報の幾何学的構造を解釈する能力は研究されていない。
視覚形式とシンボル構造を組み合わせた画像文字は、この能力の理想的なテストケースを提供する。
この視覚的認識課題を数学的領域で定式化し、各文字は幾何学的プリミティブの実行可能なプログラムによって表現される。
これはプログラム合成タスクとしてフレーム化され、VLMを訓練してラスター画像をB\'ezier曲線からなるプログラムに分解する。
我々のモデルは「視覚的デコンパイラ」として機能し、GPT-4oを含む強力なゼロショットベースラインよりも優れた性能を示す。
最も重要な発見は、現代中国語の文字のみを訓練すると、古いOracle Bone Scriptをゼロショットのコンテキストで再構築できるということだ。
この一般化は、モデルが抽象的かつ伝達可能な幾何学文法を取得し、ピクセルレベルのパターン認識からより構造化された視覚的理解へと移動するという強い証拠を与える。
関連論文リスト
- VisTIRA: Closing the Image-Text Modality Gap in Visual Math Reasoning via Structured Tool Integration [2.7403985180660784]
視覚言語モデル(VLM)は、同じ問題がテキストではなく画像として提示される場合、数学的推論においてテキストのみの言語モデルより遅れる。
本稿では、与えられた数学問題を(画像として)自然言語の有理数に分解することで、構造化された問題解決を可能にするツール統合推論フレームワークであるVisTIRAを紹介する。
ツール統合監視により画像ベース推論が向上し,OCRグラウンド化により,より小さなモデルのギャップをさらに狭めることができることを示す。
論文 参考訳(メタデータ) (2026-01-20T19:54:49Z) - Disentangling Visual Priors: Unsupervised Learning of Scene Interpretations with Compositional Autoencoder [0.20718016474717196]
本稿では、ドメイン固有言語を用いて、画像形成の先駆的選択を捉えるニューロシンボリックアーキテクチャを提案する。
我々は、その言語でテンプレートプログラムを表現し、畳み込みニューラルネットワークによってシーンから抽出された特徴を用いてパラメータ化を学ぶ。
パラメータ化されたプログラムは、実行されると幾何学的プリミティブを生成し、シーンの内容に対応するようにレンダリングして評価する。
論文 参考訳(メタデータ) (2024-09-15T12:47:39Z) - Can Large Language Models Understand Symbolic Graphics Programs? [136.5639211254501]
シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
これにより、視覚エンコーダを使わずに、画像や3次元幾何学に関する意味的な疑問に答えるLLMの能力をテストすることができる。
我々は、最小限の努力で手続き的に構築されたシンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
我々は,プログラムの視覚的アウトプットを判断する能力を評価するため,商用およびオープンソースLCMをベンチマークで評価した。
論文 参考訳(メタデータ) (2024-08-15T17:59:57Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition [43.61569815081384]
テキスト画像中の局所的特徴と言語情報を同時に捉えるための対称性重畳モデルを提案する。
画素レベルでは、原画像と逆画像の再構成を行い、文字の形状やテクスチャレベルの言語的文脈を捉える。
特徴レベルでは、意味レベルの言語文脈と局所的文字識別をモデル化するために、異なる拡張で同一の原画像と逆画像の特徴を再構築する。
論文 参考訳(メタデータ) (2024-05-09T15:23:38Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。