論文の概要: LANS: A Layout-Aware Neural Solver for Plane Geometry Problem
- arxiv url: http://arxiv.org/abs/2311.16476v2
- Date: Tue, 20 Feb 2024 03:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 20:17:14.304303
- Title: LANS: A Layout-Aware Neural Solver for Plane Geometry Problem
- Title(参考訳): LANS:平面幾何学問題のためのレイアウト対応ニューラルソルバー
- Authors: Zhong-Zhi Li, Ming-Liang Zhang, Fei Yin, Cheng-Lin Liu
- Abstract要約: 本稿では,マルチモーダルレイアウト対応言語モジュールとレイアウト対応統合アテンション(LA-FA)の2つの新しいモジュールを統合したレイアウト対応ニューラルソルバを提案する。
Geometry3K と PGPS9K によるデータセット実験では,既存の記号的およびニューラルな解法よりもレイアウト対応モジュールの有効性とLANSソルバの優れた問題解決性能が検証された。
- 参考スコア(独自算出の注目度): 43.192629815250285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometry problem solving (GPS) is a challenging mathematical reasoning task
requiring multi-modal understanding, fusion, and reasoning. Existing neural
solvers take GPS as a vision-language task but are short in the representation
of geometry diagrams that carry rich and complex layout information. In this
paper, we propose a layout-aware neural solver named LANS, integrated with two
new modules: multimodal layout-aware pre-trained language module (MLA-PLM) and
layout-aware fusion attention (LA-FA). MLA-PLM adopts structural-semantic
pre-training (SSP) to implement global relationship modeling, and point-match
pre-training (PMP) to achieve alignment between visual points and textual
points. LA-FA employs a layout-aware attention mask to realize point-guided
cross-modal fusion for further boosting layout awareness of LANS. Extensive
experiments on datasets Geometry3K and PGPS9K validate the effectiveness of the
layout-aware modules and superior problem-solving performance of our LANS
solver, over existing symbolic and neural solvers. The code will be made public
available soon.
- Abstract(参考訳): 幾何学問題解決 (gps) は、マルチモーダル理解、融合、推論を必要とする難しい数学的推論課題である。
既存のニューラルソルバはGPSを視覚言語タスクとしているが、リッチで複雑なレイアウト情報を運ぶ幾何学図の表現では不足している。
本稿では,MLA-PLM (Multimodal layout-aware pre-trained Language Module) とLA-FA (ray-aware fusion attention) の2つのモジュールを統合したレイアウト対応ニューラルソルバ LANS を提案する。
mla-plmはssp(structure-semantic pre-training)を大域的関係モデリングに採用し、pmp(point-match pre-training)は視覚点とテキスト点のアライメントを実現する。
LA-FAは、レイアウトを意識したアテンションマスクを用いて、ポイント誘導型クロスモーダル融合を実現し、LANSのレイアウト認識をさらに強化する。
Geometry3K と PGPS9K のデータセットに対する大規模な実験により、既存の記号的およびニューラルな解法よりもレイアウト対応モジュールの有効性と、LANS ソルバの優れた問題解決性能が検証された。
コードはまもなく公開される予定だ。
関連論文リスト
- GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot
Attention for Vision-and-Language Navigation [52.65506307440127]
我々は,ロバストなビジュアル・アンド・ランゲージナビゲーションのためのスロットアテンションに基づく幾何学的視覚表現を学習するGeoVLNを提案する。
我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。
論文 参考訳(メタデータ) (2023-05-26T17:15:22Z) - A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from
Diagram [33.62866585222121]
マルチモーダル情報を効率的に融合する新しいニューラルソルバであるPGPSNetを提案する。
PGPSNetには幾何学定理と幾何学的表現の知識が豊富にある。
我々はPGPS9Kという,大規模かつ詳細なGPSデータセットを構築した。
論文 参考訳(メタデータ) (2023-02-22T02:38:25Z) - Multi-Resource Allocation for On-Device Distributed Federated Learning
Systems [79.02994855744848]
本研究は,デバイス上の分散フェデレーション学習(FL)システムにおいて,レイテンシとエネルギー消費の重み付け和を最小化する分散マルチリソース割り当て方式を提案する。
システム内の各モバイルデバイスは、指定された領域内でモデルトレーニングプロセスを実行し、それぞれパラメータの導出とアップロードを行うための計算と通信資源を割り当てる。
論文 参考訳(メタデータ) (2022-11-01T14:16:05Z) - AMS-Net: Adaptive Multiscale Sparse Neural Network with Interpretable
Basis Expansion for Multiphase Flow Problems [8.991619150027267]
本研究では、物理過程の学習に応用可能な適応スパース学習アルゴリズムを提案し、大きなスナップショット空間を与えられた解のスパース表現を得る。
基本関数の情報は損失関数に組み込まれており、複数の時間ステップにおけるダウンスケール縮小次数解と参照解との差を最小限に抑える。
複雑なアプリケーションにおける提案手法の有効性と解釈性を示すため, 2相多相流問題に対してより数値的な実験を行った。
論文 参考訳(メタデータ) (2022-07-24T13:12:43Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - A Survey on Deep Learning for Localization and Mapping: Towards the Age
of Spatial Machine Intelligence [48.67755344239951]
包括的調査を行い、深層学習を用いた局所化とマッピングのための新しい分類法を提案する。
オードメトリ推定、マッピング、グローバルローカライゼーション、同時ローカライゼーション、マッピングなど、幅広いトピックがカバーされている。
この研究がロボティクス、コンピュータビジョン、機械学習コミュニティの新たな成果を結び付けることを願っている。
論文 参考訳(メタデータ) (2020-06-22T19:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。