論文の概要: A Symbolic Character-Aware Model for Solving Geometry Problems
- arxiv url: http://arxiv.org/abs/2308.02823v1
- Date: Sat, 5 Aug 2023 08:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 18:29:27.057794
- Title: A Symbolic Character-Aware Model for Solving Geometry Problems
- Title(参考訳): 幾何学問題を解決するための記号的文字認識モデル
- Authors: Maizhen Ning, Qiu-Feng Wang, Kaizhu Huang, Xiaowei Huang
- Abstract要約: テキスト記述では、"$triangle$ABC" のような記号文字が対応するダイアグラムを接続するブリッジとして機能することが多い。
文字認識モデルを構築し,文字理解と図解理解の両面において,これらの文字の役割を解明する。
- 参考スコア(独自算出の注目度): 18.68829580108664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI has made significant progress in solving math problems, but geometry
problems remain challenging due to their reliance on both text and diagrams. In
the text description, symbolic characters such as "$\triangle$ABC" often serve
as a bridge to connect the corresponding diagram. However, by simply tokenizing
symbolic characters into individual letters (e.g., 'A', 'B' and 'C'), existing
works fail to study them explicitly and thus lose the semantic relationship
with the diagram. In this paper, we develop a symbolic character-aware model to
fully explore the role of these characters in both text and diagram
understanding and optimize the model under a multi-modal reasoning framework.
In the text encoder, we propose merging individual symbolic characters to form
one semantic unit along with geometric information from the corresponding
diagram. For the diagram encoder, we pre-train it under a multi-label
classification framework with the symbolic characters as labels. In addition,
we enhance the geometry diagram understanding ability via a self-supervised
learning method under the masked image modeling auxiliary task. By integrating
the proposed model into a general encoder-decoder pipeline for solving geometry
problems, we demonstrate its superiority on two benchmark datasets, including
GeoQA and Geometry3K, with extensive experiments. Specifically, on GeoQA, the
question-solving accuracy is increased from 60.0\% to 64.1\%, achieving a new
state-of-the-art accuracy; on Geometry3K, we reduce the question average
solving steps from 6.9 down to 6.0 with marginally higher solving accuracy.
- Abstract(参考訳): AIは数学の問題解決において大きな進歩を遂げてきたが、テキストとダイアグラムの両方に依存しているため、幾何学の問題はまだ難しい。
テキスト記述では、"$\triangle$ABC" のような記号文字が対応するダイアグラムを接続するブリッジとして機能することが多い。
しかし、記号文字を個々の文字(例えば'A'、'B'、'C')にトークン化することで、既存の著作物はそれらを明示的に研究することができず、図との意味的関係を失う。
本稿では,テキストとダイアグラムの両方において,これらの文字の役割を完全に解明し,マルチモーダル推論フレームワークの下でモデルを最適化する記号的文字認識モデルを開発する。
テキストエンコーダでは、個々のシンボル文字をマージして1つの意味単位を形成するとともに、対応する図からの幾何学的情報も提案する。
ダイアグラムエンコーダでは、シンボル文字をラベルとしてマルチラベル分類フレームワークで事前トレーニングします。
さらに,マスク付き画像モデリング補助タスク下での自己教師付き学習手法により,幾何学図理解能力を向上させる。
提案モデルを一般的なエンコーダ・デコーダパイプラインに統合することにより,GeoQAとGeometry3Kを含む2つのベンチマークデータセットにその優位性を示す。
具体的には、GeoQAでは、解答精度が60.0\%から64.1\%に向上し、新しい最先端精度が達成されるが、Geometry3Kでは、解答平均ステップを6.9から6.0に減らし、解答精度を極端に高める。
関連論文リスト
- Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning [62.51232333352754]
テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
論文 参考訳(メタデータ) (2023-10-18T17:37:10Z) - Heterogeneous Line Graph Transformer for Math Word Problems [21.4761673982334]
本稿では,オンライン学習システムのための新しい機械学習モデルの設計と実装について述べる。
我々は,自動算術語問題解決システムの実現により,システムの知能レベルを向上することを目指している。
論文 参考訳(メタデータ) (2022-08-11T05:27:05Z) - GAT-CADNet: Graph Attention Network for Panoptic Symbol Spotting in CAD
Drawings [0.0]
コンピュータ支援設計(CAD)図面からグラフィカルシンボルを抽出することは、多くの産業アプリケーションにとって不可欠である。
本稿では,各CAD描画をグラフとして扱うことにより,新しいグラフ注意ネットワークGAT-CADNetを提案する。
提案したGAT-CADNetは直感的だが有効であり, 一つの統合ネットワークにおける汎視的シンボルスポッティング問題の解決に成功している。
論文 参考訳(メタデータ) (2022-01-03T13:08:28Z) - IconQA: A New Benchmark for Abstract Diagram Understanding and Visual
Language Reasoning [132.49090098391258]
IconQA(Icon Question Answering)の新たな課題を紹介する。
IconQAは107,439の質問と3つのサブタスクからなる大規模なデータセットである。
さらに、377クラスに645,687色のアイコンを含むアイコンデータセットIcon645をリリースしました。
論文 参考訳(メタデータ) (2021-10-25T18:52:26Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z) - TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene
Text Detection [20.34326396800748]
本研究では,トップダウンの輪郭型幾何モデリングと幾何パラメータ学習を行う任意の形状のテキスト検出手法であるTextRayを提案する。
いくつかのベンチマークデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2020-08-11T16:52:10Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。