論文の概要: ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity
- arxiv url: http://arxiv.org/abs/2509.22246v1
- Date: Fri, 26 Sep 2025 12:02:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.407092
- Title: ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity
- Title(参考訳): ASSESS: ステートメント類似性のための意味的かつ構造的評価フレームワーク
- Authors: Xiaoyang Liu, Tao Zhu, Zineng Dong, Yuntian Liu, Qingfeng Guo, Zhaoxuan Liu, Yu Chen, Tao Luo,
- Abstract要約: ASSESS (Semantic and Structure Evaluation Framework for Statement similarity) を導入し、セマンティックおよび構造情報を総合的に統合し、連続的な類似度スコアを提供する。
厳密な検証のために,ミニF2F と ProofNet から派生した 524 のエキスパート注釈付き形式文ペアの新しいベンチマーク EPLA を提案する。
EPLAの実験では、TransTEDの類似性は既存の手法よりも優れており、最先端の精度と最高カッパ係数が達成されている。
- 参考スコア(独自算出の注目度): 9.337443482551356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statement autoformalization, the automated translation of statements from natural language into formal languages, has seen significant advancements, yet the development of automated evaluation metrics remains limited. Existing metrics for formal statement similarity often fail to balance semantic and structural information. String-based approaches capture syntactic structure but ignore semantic meaning, whereas proof-based methods validate semantic equivalence but disregard structural nuances and, critically, provide no graded similarity score in the event of proof failure. To address these issues, we introduce ASSESS (A Semantic and Structural Evaluation Framework for Statement Similarity), which comprehensively integrates semantic and structural information to provide a continuous similarity score. Our framework first transforms formal statements into Operator Trees to capture their syntactic structure and then computes a similarity score using our novel TransTED (Transformation Tree Edit Distance) Similarity metric, which enhances traditional Tree Edit Distance by incorporating semantic awareness through transformations. For rigorous validation, we present EPLA (Evaluating Provability and Likeness for Autoformalization), a new benchmark of 524 expert-annotated formal statement pairs derived from miniF2F and ProofNet, with labels for both semantic provability and structural likeness. Experiments on EPLA demonstrate that TransTED Similarity outperforms existing methods, achieving state-of-the-art accuracy and the highest Kappa coefficient. The benchmark, and implementation code will be made public soon.
- Abstract(参考訳): 自然言語から形式言語へのステートメントの自動翻訳であるステートメントの自動形式化は、大きな進歩を遂げているが、自動評価指標の開発は依然として限られている。
形式的なステートメントの類似性のための既存のメトリクスは、しばしば意味と構造情報のバランスをとるのに失敗する。
文字列ベースのアプローチは構文的構造をキャプチャするが意味的意味を無視するが、証明に基づく手法は意味的同値性を検証するが構造的ニュアンスを無視する。
これらの課題に対処するために,意味的および構造的情報を総合的に統合し,連続的な類似度スコアを提供するASSESS(Semantic and Structure Evaluation Framework for Statement similarity)を導入する。
筆者らのフレームワークはまず,形式文を演算木に変換し,その構文構造を解析し,変換による意味認識を取り入れた従来の木編集距離を向上するTransTED(Transformation Tree Edit Distance)類似度尺度を用いて類似度スコアを算出する。
厳密な検証のために, miniF2F と ProofNet から派生した 524 のエキスパートアノテーション付き形式文対のベンチマークである EPLA (Evaluating Provability and Likeness for Autoformalization) を提案する。
EPLAの実験では、TransTEDの類似性は既存の手法よりも優れており、最先端の精度と最高カッパ係数が達成されている。
ベンチマークと実装コードはまもなく公開される予定だ。
関連論文リスト
- AQAScore: Evaluating Semantic Alignment in Text-to-Audio Generation via Audio Question Answering [97.52852990265136]
音声対応大規模言語モデルの推論機能を活用するバックボーン非依存評価フレームワークであるAQAScoreを紹介する。
AQAScoreは人格関連性、ペア比較、構成推論タスクを含む複数のベンチマークで評価する。
論文 参考訳(メタデータ) (2026-01-21T07:35:36Z) - Table-BiEval: A Self-Supervised, Dual-Track Framework for Decoupling Structure and Content in LLM Evaluation [11.450834626205676]
Table-BiEvalは、人間の自由で自己管理的な評価フレームワークに基づく、新しいアプローチである。
コンテンツセマンティック精度と正規化ツリー編集距離を計算し、構造をコンテンツから切り離す。
結果は大きな変動を示し、中規模のモデルが驚くほど大きなモデルよりも構造効率が優れていることを浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-09T07:38:27Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Semantic F1 Scores: Fair Evaluation Under Fuzzy Class Boundaries [65.89202599399252]
本稿では,主観的,ファジィなマルチラベル分類のための新しい評価指標であるセマンティックF1スコアを提案する。
セマンティックF1は意味的に関連があるが、識別できないラベルに部分クレジットを与えることで、人間の不一致やファジィ圏の境界によって特徴付けられる領域の現実をよりよく反映する。
論文 参考訳(メタデータ) (2025-09-25T21:48:48Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - StructCoh: Structured Contrastive Learning for Context-Aware Text Semantic Matching [10.000850856259866]
StructCohはグラフ強化のコントラスト学習フレームワークである。
階層的な対照的な目的は、複数の粒度で一貫性を強制する。
3つの法的な文書マッチングベンチマークと学術的プラジャリズム検出データセットの実験は、大幅な改善を示している。
論文 参考訳(メタデータ) (2025-09-02T07:21:36Z) - Generalized Tree Edit Distance (GTED): A Faithful Evaluation Metric for Statement Autoformalization [11.26658223467498]
GTEDは形式文を標準化し、それらを演算木に変換する評価フレームワークである。
名前付き GTED 計量を用いて意味的類似性を決定する。
GTEDは一貫して最高性能の指標であり、MiniF2FではKappa、ProofNetでは最大精度でKappaを達成している。
論文 参考訳(メタデータ) (2025-07-10T03:34:58Z) - Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness [13.258954013620885]
CTSESは、CodeBLEU、METEOR、ROUGE-Lを統合した複合計量であり、振る舞い、語彙的品質、構造的アライメントのバランスをとる。
我々の結果は、CTSESは既存のメトリクスよりも、開発者の期待と人間の直感に合わせた、より忠実で解釈可能な評価を得られることを示しています。
論文 参考訳(メタデータ) (2025-06-07T11:18:17Z) - QUDsim: Quantifying Discourse Similarities in LLM-Generated Text [70.22275200293964]
本稿では,会話の進行過程の違いの定量化を支援するために,言語理論に基づくQUDと質問意味論を紹介する。
このフレームワークを使って$textbfQUDsim$を作ります。
QUDsimを用いて、コンテンツが異なる場合であっても、LLMはサンプル間で(人間よりも)談話構造を再利用することが多い。
論文 参考訳(メタデータ) (2025-04-12T23:46:09Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Autoformalize Mathematical Statements by Symbolic Equivalence and Semantic Consistency [22.86318578119266]
そこで我々は,記号的同値性と意味的整合性に基づいて,k個の自己形式化候補から最良の結果をスコアし,選択する新しいフレームワークを提案する。
MATHおよびminiF2Fデータセットに対する実験により,本手法は自己形式化精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-10-28T11:37:39Z) - Identifiable Exchangeable Mechanisms for Causal Structure and Representation Learning [54.69189620971405]
IEM(Identible Exchangeable Mechanisms)と呼ばれる,表現と構造学習のための統合フレームワークを提供する。
IEMは、交換可能な非i.d.データにおける因果構造同定に必要な条件を緩和する新しい洞察を提供する。
また、認識可能な表現学習における双対性条件の存在を実証し、新たな識別可能性結果をもたらす。
論文 参考訳(メタデータ) (2024-06-20T13:30:25Z) - Duality-Induced Regularizer for Semantic Matching Knowledge Graph
Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。
実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2022-03-24T09:24:39Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。