論文の概要: Plane Geometry Problem Solving with Multi-modal Reasoning: A Survey
- arxiv url: http://arxiv.org/abs/2505.14340v1
- Date: Tue, 20 May 2025 13:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.254577
- Title: Plane Geometry Problem Solving with Multi-modal Reasoning: A Survey
- Title(参考訳): マルチモーダル推論による平面形状問題の解法:サーベイ
- Authors: Seunghyuk Cho, Zhenyue Qin, Yang Liu, Youngbin Choi, Seungbeom Lee, Dongwoo Kim,
- Abstract要約: 平面幾何学的問題解決(PGPS)は近年,大規模視覚言語モデルのマルチモーダル推論能力を評価するベンチマークとして注目されている。
PGPSへの関心が高まりつつあるにもかかわらず、研究コミュニティはPGPSの最近の研究を体系的に合成する包括的な概要を欠いている。
我々はまず,PGPS手法をエンコーダ・デコーダ・フレームワークに分類し,それらのエンコーダとデコーダが使用する出力形式を要約する。
- 参考スコア(独自算出の注目度): 8.887710491315088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Plane geometry problem solving (PGPS) has recently gained significant attention as a benchmark to assess the multi-modal reasoning capabilities of large vision-language models. Despite the growing interest in PGPS, the research community still lacks a comprehensive overview that systematically synthesizes recent work in PGPS. To fill this gap, we present a survey of existing PGPS studies. We first categorize PGPS methods into an encoder-decoder framework and summarize the corresponding output formats used by their encoders and decoders. Subsequently, we classify and analyze these encoders and decoders according to their architectural designs. Finally, we outline major challenges and promising directions for future research. In particular, we discuss the hallucination issues arising during the encoding phase within encoder-decoder architectures, as well as the problem of data leakage in current PGPS benchmarks.
- Abstract(参考訳): 平面幾何学的問題解決(PGPS)は近年,大規模視覚言語モデルのマルチモーダル推論能力を評価するベンチマークとして注目されている。
PGPSへの関心が高まりつつあるにもかかわらず、研究コミュニティはPGPSの最近の研究を体系的に合成する包括的な概要を欠いている。
このギャップを埋めるために、既存のPGPS研究について調査する。
我々はまず,PGPS手法をエンコーダ・デコーダ・フレームワークに分類し,それらのエンコーダとデコーダが使用する出力形式を要約する。
その後、アーキテクチャ設計に従って、これらのエンコーダとデコーダを分類、解析する。
最後に,今後の研究の課題と今後の方向性について概説する。
特に,エンコーダデコーダアーキテクチャのエンコードフェーズで発生する幻覚問題や,現在のPGPSベンチマークにおけるデータ漏洩問題について議論する。
関連論文リスト
- TopoSD: Topology-Enhanced Lane Segment Perception with SDMap Prior [70.84644266024571]
我々は、標準定義地図(SDMaps)を見るために知覚モデルを訓練することを提案する。
我々はSDMap要素をニューラル空間マップ表現やインスタンストークンにエンコードし、先行情報のような補完的な特徴を組み込む。
レーンセグメント表現フレームワークに基づいて、モデルはレーン、中心線、およびそれらのトポロジを同時に予測する。
論文 参考訳(メタデータ) (2024-11-22T06:13:42Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from
Diagram [33.62866585222121]
マルチモーダル情報を効率的に融合する新しいニューラルソルバであるPGPSNetを提案する。
PGPSNetには幾何学定理と幾何学的表現の知識が豊富にある。
我々はPGPS9Kという,大規模かつ詳細なGPSデータセットを構築した。
論文 参考訳(メタデータ) (2023-02-22T02:38:25Z) - RNTrajRec: Road Network Enhanced Trajectory Recovery with
Spatial-Temporal Transformer [15.350300338463969]
本稿では,道路網を改良したトランスフォーマーベースフレームワーク RNTrajRec を提案する。
RNTrajRecはまずグラフモデル、すなわちGridGNNを使用して、各道路セグメントの埋め込み機能を学ぶ。
次にサブグラフ生成モジュールを導入し、各GPSポイントをGPSポイント周辺の道路ネットワークのサブグラフ構造として表現する。
論文 参考訳(メタデータ) (2022-11-23T11:28:32Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。