論文の概要: MATCHA: Matching Text via Contrastive Semantic Alignment
- arxiv url: http://arxiv.org/abs/2605.27345v1
- Date: Tue, 26 May 2026 17:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.577317
- Title: MATCHA: Matching Text via Contrastive Semantic Alignment
- Title(参考訳): MATCHA:コントラスト的セマンティックアライメントによるテキストのマッチング
- Authors: Siran Li, Ece Sena Etoglu, Carsten Eickhoff, Seyed Ali Bahrainian,
- Abstract要約: MATCHAは、参照とのセマンティックな合意を報い、矛盾を罰する自動計量である。
参照のみに基づいて誤った文と正しい文を区別するのは最も正確である。
- 参考スコア(独自算出の注目度): 23.871585688798802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reliable evaluation is essential for understanding large language model (LLM) performance, yet today's go-to metrics, namely token-overlap scores (e.g., ROUGE) and embedding-based measures (e.g., BERTScore), often misjudge semantic similarity of documents. Our study shows that both token-overlap metrics and embedding-based metrics routinely assign nearly identical scores to texts that directly contradict each other, thereby potentially masking fundamental errors. We introduce MATCHA, an automatic metric that jointly rewards semantic agreement with a reference and penalizes contradictions. MATCHA employs a dual-view perspective that measures (i) proximity to the gold text and (ii) distance from an adversarially generated counterfactual contradiction. In eight public benchmarks, MATCHA outperforms popular metrics, compared with human annotations on question-answering, image caption generation, natural language inference, summarization, and semantic textual similarity tasks. On the TruthfulQA dataset (i.e., a dataset without a training set, where no embedding-based metrics could locally train on), this improvement in terms of matching texts with a reference reaches 18.38% over ROUGE-L and 20.82% over BERTScore. Both quantitative comparison and qualitative human assessments confirm the efficacy and validity of MATCHA and uncover fundamental weaknesses in pre-existing metrics. Compared with 23 embedding models, including top state-of-the-art ones, used as a metric similar to BERTScore, MATCHA remains the most accurate in distinguishing correct from incorrect statements solely based on a reference. Our code and metric are publicly available (https://github.com/Siran-Li/MATCHA).
- Abstract(参考訳): 信頼性の高い評価は、大きな言語モデル(LLM)のパフォーマンスを理解するのに不可欠だが、今日のgo-toメトリクス、すなわちトークンオーバーラップスコア(ROUGEなど)と埋め込みベースの測定(BERTScoreなど)は、文書のセマンティックな類似性を誤解することが多い。
我々の研究では、トークンオーバーラップメトリクスと埋め込みベースのメトリクスの両方が、互いに直接矛盾するテキストにほぼ同一のスコアを割り当てることによって、基本的なエラーを隠蔽する可能性が示されている。
我々は、参照と意味的合意を共同で報い、矛盾を罰する自動計量MATCHAを紹介する。
MATCHAは、測定する双対視点を用いる
(i)金本文に近づき、
(ii) 反対に生成された反事実矛盾からの距離。
8つの公開ベンチマークにおいて、MATCHAは、質問回答、画像キャプション生成、自然言語推論、要約、意味的テキスト類似性タスクに関する人間のアノテーションと比較して、一般的なメトリクスよりも優れています。
TruthfulQAデータセット(例えば、組み込みベースのメトリクスがローカルにトレーニングできないトレーニングセットのないデータセット)では、参照とのマッチングに関するこの改善がROUGE-Lで18.38%、BERTScoreで20.82%に達した。
定量的比較と質的な人間の評価は、MATCHAの有効性と妥当性を確認し、既存の指標の根本的な弱点を明らかにする。
BERTScoreと同様の計量として使用される最先端技術を含む23の埋め込みモデルと比較すると、MATCHAは参照のみに基づいて正しい文を正しく区別する上で最も正確である。
私たちのコードとメトリックは公開されています(https://github.com/Siran-Li/MATCHA)。
関連論文リスト
- Evaluating the Evaluators: Metrics for Compositional Text-to-Image Generation [13.460909458745379]
本稿では,コンポジションテキスト画像評価に広く用いられている指標について検討する。
我々の分析は単純な相関を超越し、様々な構成課題にまたがってそれらの振る舞いを調べる。
結果は、1つのメトリクスがタスク間で一貫した実行をしないことを示している。
論文 参考訳(メタデータ) (2025-09-25T14:31:09Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Ties Matter: Meta-Evaluating Modern Metrics with Pairwise Accuracy and
Tie Calibration [31.082944145354293]
Kendall の tau は機械翻訳(MT)評価のメタ評価によく使われ、個々の翻訳を評価する。
既存の変種は、関係の扱いから生じる弱点があり、いくつかの状況ではゲーム化も可能であることを示す。
そこで本稿では,関係を正確に予測するためのメトリクスクレジットを提供するペアワイズ精度バージョンと,相関を自動で評価する階層校正手順を提案する。
論文 参考訳(メタデータ) (2023-05-23T17:54:57Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。