論文の概要: Interpretable Coreference Resolution Evaluation Using Explicit Semantics
- arxiv url: http://arxiv.org/abs/2605.10627v1
- Date: Mon, 11 May 2026 14:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.887324
- Title: Interpretable Coreference Resolution Evaluation Using Explicit Semantics
- Title(参考訳): 明示的セマンティックスを用いた解釈可能な相関分解能の評価
- Authors: Bruno Gatti, Giuliano Martinelli, Roberto Navigli,
- Abstract要約: CoNLL-F1のような集約統計量を用いて、参照分解能を評価する。
コア参照解決のためのセマンティック・エンハンスド・アセスメント・フレームワークを提案する。
我々のフレームワークは、集約されたメトリクスによって隠されたままの体系的な弱点を明らかにする。
- 参考スコア(独自算出の注目度): 35.71215348826291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coreference resolution is typically evaluated using aggregate statistical metrics such as CoNLL-F1, which measure structural overlap between predicted and gold clusters. While widely used, these metrics offer limited diagnostic insights, penalizing errors without revealing whether a system struggles with specific semantic categories, such as people, locations, or events, and making it difficult to interpret model capabilities or derive actionable improvements. We address this gap by introducing a semantically-enhanced evaluation framework for coreference resolution. Our approach overlays Concept and Named Entity Recognition (CNER) onto coreference outputs, assigning semantic labels to nominal mentions and propagating them to entire coreference clusters. This enables the computation of typed scores aimed at evaluating mention extraction and linking capabilities stratified by semantic class. Across our experiments on OntoNotes, LitBank, and PreCo, we show that our framework uncovers systematic weaknesses that remain obscured by aggregate metrics. Furthermore, we demonstrate that these diagnostics can be used to design targeted, low-cost data augmentation strategies, achieving measurable out-of-domain improvements.
- Abstract(参考訳): 基準分解能は、予測と金クラスターの間の構造的重複を測定するCoNLL-F1のような集約統計量を用いて評価されるのが一般的である。
広く使われているが、これらのメトリクスは限られた診断の洞察を提供し、システムが人、場所、イベントといった特定の意味カテゴリーに苦しむかどうかを明らかにすることなくエラーを罰し、モデル能力の解釈や実用的な改善の導出を困難にしている。
コア参照解決のためのセマンティック・エンハンスド・アセスメント・フレームワークを導入することで、このギャップに対処する。
我々のアプローチは、概念と名前付きエンティティ認識(CNER)をコア参照出力にオーバーレイし、名前付き参照にセマンティックラベルを割り当て、コア参照クラスタ全体を伝搬する。
これにより、セマンティッククラスで階層化された参照抽出とリンク機能の評価を目的とした、型付きスコアの計算が可能になる。
OntoNotes、LitBank、PreCoに関する実験を通して、我々のフレームワークは、集約されたメトリクスによって隠されたままの体系的な弱点を明らかにします。
さらに,これらの診断技術を用いて,目標とする低コストなデータ拡張戦略を設計し,ドメイン外改善の計測が可能であることを実証した。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Concept Regions Matter: Benchmarking CLIP with a New Cluster-Importance Approach [20.898059440239603]
クラスタベースの概念重要度(CCI)は、新しい解釈可能性手法である。
CCIは、忠実度ベンチマークの新たな最先端を定めている。
今回,18種類のCLIPの包括的評価を行った。
論文 参考訳(メタデータ) (2025-11-17T05:01:24Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Predict, Cluster, Refine: A Joint Embedding Predictive Self-Supervised Framework for Graph Representation Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。
現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。
本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-02T07:42:45Z) - Open-Vocabulary Segmentation with Semantic-Assisted Calibration [68.41025728960176]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。