論文の概要: A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from
Diagram
- arxiv url: http://arxiv.org/abs/2302.11097v2
- Date: Fri, 28 Apr 2023 10:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 17:02:52.443054
- Title: A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from
Diagram
- Title(参考訳): 図形解析による文節付き多モードニューラルネットワーク幾何解法
- Authors: Ming-Liang Zhang, Fei Yin, Cheng-Lin Liu
- Abstract要約: マルチモーダル情報を効率的に融合する新しいニューラルソルバであるPGPSNetを提案する。
PGPSNetには幾何学定理と幾何学的表現の知識が豊富にある。
我々はPGPS9Kという,大規模かつ詳細なGPSデータセットを構築した。
- 参考スコア(独自算出の注目度): 33.62866585222121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometry problem solving (GPS) is a high-level mathematical reasoning
requiring the capacities of multi-modal fusion and geometric knowledge
application. Recently, neural solvers have shown great potential in GPS but
still be short in diagram presentation and modal fusion. In this work, we
convert diagrams into basic textual clauses to describe diagram features
effectively, and propose a new neural solver called PGPSNet to fuse multi-modal
information efficiently. Combining structural and semantic pre-training, data
augmentation and self-limited decoding, PGPSNet is endowed with rich knowledge
of geometry theorems and geometric representation, and therefore promotes
geometric understanding and reasoning. In addition, to facilitate the research
of GPS, we build a new large-scale and fine-annotated GPS dataset named PGPS9K,
labeled with both fine-grained diagram annotation and interpretable solution
program. Experiments on PGPS9K and an existing dataset Geometry3K validate the
superiority of our method over the state-of-the-art neural solvers. Our code,
dataset and appendix material are available at
\url{https://github.com/mingliangzhang2018/PGPS}.
- Abstract(参考訳): 幾何問題の解法(GPS)は、多モード融合と幾何学的知識応用の能力を必要とする高レベルの数学的推論である。
近年、ニューラルソルバはGPSに大きな可能性を示しているが、図示やモーダル融合では依然として不足している。
本研究では,図を基本文節に変換し,図の特徴を効果的に記述し,マルチモーダル情報を効率的に融合するPGPSNetと呼ばれるニューラルソルバを提案する。
構造的および意味的な事前学習、データ拡張、自己制限デコーディングを組み合わせることで、PGPSNetは幾何学定理と幾何学的表現の豊富な知識が与えられ、幾何学的理解と推論を促進する。
さらに,GPSの研究を容易にするため,PGPS9Kと呼ばれる大規模かつ微細なGPSデータセットを構築し,詳細な図形アノテーションと解釈可能な解プログラムをラベル付けした。
PGPS9Kと既存のデータセットGeometry3Kの実験は、最先端のニューラルソルバよりも、我々の手法の優位性を検証する。
我々のコード、データセット、付録資料は \url{https://github.com/mingliangzhang2018/PGPS} で入手できる。
関連論文リスト
- Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and
Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。
幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Simplicial Representation Learning with Neural $k$-Forms [14.566552361705499]
本稿では,ノード座標を用いて,$mathbbRn$に埋め込まれた単体錯体から得られる幾何学的情報を活用することに焦点を当てる。
我々は mathbbRn の微分 k-形式を用いて単純化の表現を作成し、メッセージパッシングなしに解釈可能性と幾何学的整合性を提供する。
本手法は, グラフ, simplicial Complex, セルコンプレックスなど, 様々な入力コンプレックスに適用可能である。
論文 参考訳(メタデータ) (2023-12-13T21:03:39Z) - LANS: A Layout-Aware Neural Solver for Plane Geometry Problem [43.192629815250285]
本稿では,マルチモーダルレイアウト対応言語モジュールとレイアウト対応統合アテンション(LA-FA)の2つの新しいモジュールを統合したレイアウト対応ニューラルソルバを提案する。
Geometry3K と PGPS9K によるデータセット実験では,既存の記号的およびニューラルな解法よりもレイアウト対応モジュールの有効性とLANSソルバの優れた問題解決性能が検証された。
論文 参考訳(メタデータ) (2023-11-25T04:11:19Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z) - Fusing the Old with the New: Learning Relative Camera Pose with
Geometry-Guided Uncertainty [91.0564497403256]
本稿では,ネットワークトレーニング中の2つの予測系間の確率的融合を含む新しい枠組みを提案する。
本ネットワークは,異なる対応間の強い相互作用を強制することにより学習を駆動する自己追跡グラフニューラルネットワークを特徴とする。
学習に適したモーションパーマリゼーションを提案し、難易度の高いDeMoNおよびScanNetデータセットで最新のパフォーマンスを達成できることを示します。
論文 参考訳(メタデータ) (2021-04-16T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。