論文の概要: A Theorem-Proving-Based Evaluation of Neural Semantic Parsing
- arxiv url: http://arxiv.org/abs/2510.11225v1
- Date: Mon, 13 Oct 2025 10:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.311495
- Title: A Theorem-Proving-Based Evaluation of Neural Semantic Parsing
- Title(参考訳): 理論証明に基づくニューラル・セマンティック・パーシングの評価
- Authors: Hayate Funakura, Hyunsoo Kim, Koji Mineshima,
- Abstract要約: 我々は、グラフマッチングと自動定理証明とのペアリングによる評価を再評価する。
提案手法は,グラフマッチング,一階述語論理定理証明器によるソースとターゲットの論理式間の双方向の包含,および整形性を用いて出力を評価する。
- 参考スコア(独自算出の注目度): 4.422349568747053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph-matching metrics such as Smatch are the de facto standard for evaluating neural semantic parsers, yet they capture surface overlap rather than logical equivalence. We reassess evaluation by pairing graph-matching with automated theorem proving. We compare two approaches to building parsers: supervised fine-tuning (T5-Small/Base) and few-shot in-context learning (GPT-4o/4.1/5), under normalized and unnormalized targets. We evaluate outputs using graph-matching, bidirectional entailment between source and target formulas with a first-order logic theorem prover, and well-formedness. Across settings, we find that models performing well on graph-matching often fail to produce logically equivalent formulas. Normalization reduces incidental target variability, improves well-formedness, and strengthens logical adequacy. Error analysis shows performance degrades with increasing formula complexity and with coordination, prepositional phrases, and passive voice; the dominant failures involve variable binding and indexing, and predicate naming. These findings highlight limits of graph-based metrics for reasoning-oriented applications and motivate logic-sensitive evaluation and training objectives together with simplified, normalized target representations. All code and data for our experiments are publicly available.
- Abstract(参考訳): Smatchのようなグラフマッチングメトリクスは、ニューラルネットワークセマンティックパーサを評価するためのデファクトスタンダードであるが、論理的等価性よりも表面の重なりを捉えている。
我々は、グラフマッチングと自動定理証明とのペアリングによる評価を再評価する。
教師付き微調整(T5-Small/Base)と少数ショットインコンテキスト学習(GPT-4o/4.1/5)の2つの手法を比較した。
提案手法は,グラフマッチング,一階述語論理定理証明器によるソースとターゲットの論理式間の双方向の包含,および整形性を用いて出力を評価する。
設定全体では、グラフマッチングでうまく機能するモデルは論理的に等価な公式を生成できないことが多い。
正規化は、偶発的ターゲットの変動を減少させ、良好な形状を改善し、論理的妥当性を高める。
誤り解析は、公式の複雑さの増加、調整、前置詞句、受動的音声による性能低下を示す。
これらの知見は、推論指向アプリケーションのためのグラフベースのメトリクスの限界を強調し、論理に敏感な評価と学習目標を、単純化された正規化されたターゲット表現と共に動機付ける。
実験用のコードとデータはすべて公開されています。
関連論文リスト
- Bridging Theory and Practice in Link Representation with Graph Neural Networks [15.088089745469652]
グラフニューラルネットワーク(GNN)は、リンク予測のような下流タスクのためのノードペアの表現を計算するために広く使われている。
既存のメッセージパッシングリンクモデルを仮定する統一フレームワークである$k_phi$-$k_rho$-$m$を導入します。
我々は、リンクの識別の難しさを定量化するグラフ対称性計量を用いて、表現的モデルは標準ベンチマークでは性能が劣るが、対称性が増大するにつれて、より単純なものよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2025-06-30T16:22:15Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Abstract Meaning Representation-Based Logic-Driven Data Augmentation for Logical Reasoning [27.224364543134094]
本稿では,論理駆動型データ拡張手法AMR-LDAを提案する。
AMR-LDAは元のテキストを抽象的意味表現(AMR)グラフに変換する。
修正されたAMRグラフは、拡張データを生成するためにテキストに変換される。
論文 参考訳(メタデータ) (2023-05-21T23:16:26Z) - GraphQ IR: Unifying Semantic Parsing of Graph Query Language with
Intermediate Representation [91.27083732371453]
本稿では,グラフクエリ言語,すなわちGraphQ IRに対する統合中間表現(IR)を提案する。
セマンティックギャップをブリッジするIRの自然言語のような表現と、グラフ構造を維持するための正式に定義された構文によって、ニューラルネットワークによるセマンティックパーシングは、ユーザクエリをより効果的にGraphQ IRに変換することができる。
我々のアプローチは、KQA Pro、Overnight、MetaQAにおける最先端のパフォーマンスを一貫して達成できます。
論文 参考訳(メタデータ) (2022-05-24T13:59:53Z) - Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。
提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文 参考訳(メタデータ) (2022-01-05T13:37:27Z) - Enforcing Consistency in Weakly Supervised Semantic Parsing [68.2211621631765]
本稿では,関連する入力に対する出力プログラム間の整合性を利用して,スプリアスプログラムの影響を低減することを提案する。
より一貫性のあるフォーマリズムは、一貫性に基づくトレーニングを必要とせずに、モデルパフォーマンスを改善することにつながります。
論文 参考訳(メタデータ) (2021-07-13T03:48:04Z) - Evaluating Logical Generalization in Graph Neural Networks [59.70452462833374]
グラフニューラルネットワーク(GNN)を用いた論理一般化の課題について検討する。
ベンチマークスイートであるGraphLogでは、学習アルゴリズムが異なる合成論理でルール誘導を実行する必要がある。
モデルが一般化し適応する能力は、トレーニング中に遭遇する論理規則の多様性によって強く決定される。
論文 参考訳(メタデータ) (2020-03-14T05:45:55Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。