論文の概要: ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity
- arxiv url: http://arxiv.org/abs/2509.22246v1
- Date: Fri, 26 Sep 2025 12:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.407092
- Title: ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity
- Title(参考訳): ASSESS: ステートメント類似性のための意味的かつ構造的評価フレームワーク
- Authors: Xiaoyang Liu, Tao Zhu, Zineng Dong, Yuntian Liu, Qingfeng Guo, Zhaoxuan Liu, Yu Chen, Tao Luo,
- Abstract要約: ASSESS (Semantic and Structure Evaluation Framework for Statement similarity) を導入し、セマンティックおよび構造情報を総合的に統合し、連続的な類似度スコアを提供する。
厳密な検証のために,ミニF2F と ProofNet から派生した 524 のエキスパート注釈付き形式文ペアの新しいベンチマーク EPLA を提案する。
EPLAの実験では、TransTEDの類似性は既存の手法よりも優れており、最先端の精度と最高カッパ係数が達成されている。
- 参考スコア(独自算出の注目度): 9.337443482551356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statement autoformalization, the automated translation of statements from natural language into formal languages, has seen significant advancements, yet the development of automated evaluation metrics remains limited. Existing metrics for formal statement similarity often fail to balance semantic and structural information. String-based approaches capture syntactic structure but ignore semantic meaning, whereas proof-based methods validate semantic equivalence but disregard structural nuances and, critically, provide no graded similarity score in the event of proof failure. To address these issues, we introduce ASSESS (A Semantic and Structural Evaluation Framework for Statement Similarity), which comprehensively integrates semantic and structural information to provide a continuous similarity score. Our framework first transforms formal statements into Operator Trees to capture their syntactic structure and then computes a similarity score using our novel TransTED (Transformation Tree Edit Distance) Similarity metric, which enhances traditional Tree Edit Distance by incorporating semantic awareness through transformations. For rigorous validation, we present EPLA (Evaluating Provability and Likeness for Autoformalization), a new benchmark of 524 expert-annotated formal statement pairs derived from miniF2F and ProofNet, with labels for both semantic provability and structural likeness. Experiments on EPLA demonstrate that TransTED Similarity outperforms existing methods, achieving state-of-the-art accuracy and the highest Kappa coefficient. The benchmark, and implementation code will be made public soon.
- Abstract(参考訳): 自然言語から形式言語へのステートメントの自動翻訳であるステートメントの自動形式化は、大きな進歩を遂げているが、自動評価指標の開発は依然として限られている。
形式的なステートメントの類似性のための既存のメトリクスは、しばしば意味と構造情報のバランスをとるのに失敗する。
文字列ベースのアプローチは構文的構造をキャプチャするが意味的意味を無視するが、証明に基づく手法は意味的同値性を検証するが構造的ニュアンスを無視する。
これらの課題に対処するために,意味的および構造的情報を総合的に統合し,連続的な類似度スコアを提供するASSESS(Semantic and Structure Evaluation Framework for Statement similarity)を導入する。
筆者らのフレームワークはまず,形式文を演算木に変換し,その構文構造を解析し,変換による意味認識を取り入れた従来の木編集距離を向上するTransTED(Transformation Tree Edit Distance)類似度尺度を用いて類似度スコアを算出する。
厳密な検証のために, miniF2F と ProofNet から派生した 524 のエキスパートアノテーション付き形式文対のベンチマークである EPLA (Evaluating Provability and Likeness for Autoformalization) を提案する。
EPLAの実験では、TransTEDの類似性は既存の手法よりも優れており、最先端の精度と最高カッパ係数が達成されている。
ベンチマークと実装コードはまもなく公開される予定だ。
関連論文リスト
- SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - StructCoh: Structured Contrastive Learning for Context-Aware Text Semantic Matching [10.000850856259866]
StructCohはグラフ強化のコントラスト学習フレームワークである。
階層的な対照的な目的は、複数の粒度で一貫性を強制する。
3つの法的な文書マッチングベンチマークと学術的プラジャリズム検出データセットの実験は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T07:21:36Z) - Generalized Tree Edit Distance (GTED): A Faithful Evaluation Metric for Statement Autoformalization [11.26658223467498]
GTEDは形式文を標準化し、それらを演算木に変換する評価フレームワークである。
名前付き GTED 計量を用いて意味的類似性を決定する。
GTEDは一貫して最高性能の指標であり、MiniF2FではKappa、ProofNetでは最大精度でKappaを達成している。
論文 参考訳(メタデータ) (2025-07-10T03:34:58Z) - Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness [13.258954013620885]
CTSESは、CodeBLEU、METEOR、ROUGE-Lを統合した複合計量であり、振る舞い、語彙的品質、構造的アライメントのバランスをとる。
我々の結果は、CTSESは既存のメトリクスよりも、開発者の期待と人間の直感に合わせた、より忠実で解釈可能な評価を得られることを示しています。
論文 参考訳(メタデータ) (2025-06-07T11:18:17Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning [54.69189620971405]
IEM(Identible Exchangeable Mechanisms)と呼ばれる,表現と構造学習のための統合フレームワークを提供する。
IEMは、交換可能な非i.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。
また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。
論文 参考訳(メタデータ) (2024-06-20T13:30:25Z) - Duality-Induced Regularizer for Semantic Matching Knowledge Graph
Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。
実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2022-03-24T09:24:39Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。