論文の概要: SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation
- arxiv url: http://arxiv.org/abs/2511.17432v1
- Date: Fri, 21 Nov 2025 17:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.143435
- Title: SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation
- Title(参考訳): SMILE:質問応答評価のための複合語彙意味尺度
- Authors: Shrikant Kendre, Austin Xu, Honglu Zhou, Michael Ryoo, Shafiq Joty, Juan Carlos Niebles,
- Abstract要約: 本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
- 参考スコア(独自算出の注目度): 55.26111461168754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional evaluation metrics for textual and visual question answering, like ROUGE, METEOR, and Exact Match (EM), focus heavily on n-gram based lexical similarity, often missing the deeper semantic understanding needed for accurate assessment. While measures like BERTScore and MoverScore leverage contextual embeddings to address this limitation, they lack flexibility in balancing sentence-level and keyword-level semantics and ignore lexical similarity, which remains important. Large Language Model (LLM) based evaluators, though powerful, come with drawbacks like high costs, bias, inconsistency, and hallucinations. To address these issues, we introduce SMILE: Semantic Metric Integrating Lexical Exactness, a novel approach that combines sentence-level semantic understanding with keyword-level semantic understanding and easy keyword matching. This composite method balances lexical precision and semantic relevance, offering a comprehensive evaluation. Extensive benchmarks across text, image, and video QA tasks show SMILE is highly correlated with human judgments and computationally lightweight, bridging the gap between lexical and semantic evaluation.
- Abstract(参考訳): ROUGE(英語版)、METEOR(英語版)、Exact Match(EM)のようなテキストおよび視覚的質問応答のための伝統的な評価指標は、n-gramベースの語彙的類似性に重点を置いており、しばしば正確な評価に必要な深い意味的理解を欠いている。
BERTScoreやMoverScoreのような測度はこの制限に対処するためにコンテキスト埋め込みを利用するが、文レベルのセマンティクスとキーワードレベルのセマンティクスのバランスの柔軟性は欠如しており、それでも重要な語彙的類似性を無視している。
大きな言語モデル(LLM)ベースの評価器は強力だが、高いコスト、バイアス、矛盾、幻覚といった欠点がある。
文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチである。
この合成法は、語彙精度と意味的関連性のバランスをとり、総合的な評価を提供する。
テキスト、画像、ビデオQAタスクにわたる広範囲なベンチマークでは、SMILEは人間の判断と高い相関を示し、計算的に軽量であり、語彙的評価と意味的評価のギャップを埋めている。
関連論文リスト
- ImpScore: A Learnable Metric For Quantifying The Implicitness Level of Sentence [40.4052848203136]
インプシット言語は, 自然言語処理システムにおいて, 正確なテキスト理解を実現し, ユーザとの自然な対話を促進するために不可欠である。
本稿では,外部参照に頼ることなく,言語の暗黙度を定量化するスカラー計量を開発した。
InmpScoreのユーザによる評価を,アウト・オブ・ディストリビューションデータに基づく人間による評価と比較することで検証する。
論文 参考訳(メタデータ) (2024-11-07T20:23:29Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。
34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文 参考訳(メタデータ) (2024-04-25T07:08:00Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。