論文の概要: Semantic-KG: Using Knowledge Graphs to Construct Benchmarks for Measuring Semantic Similarity
- arxiv url: http://arxiv.org/abs/2511.19925v1
- Date: Tue, 25 Nov 2025 05:07:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.279041
- Title: Semantic-KG: Using Knowledge Graphs to Construct Benchmarks for Measuring Semantic Similarity
- Title(参考訳): Semantic-KG: セマンティック類似度測定のためのベンチマーク構築に知識グラフを使用する
- Authors: Qiyao Wei, Edward Morrell, Lea Goetz, Mihaela van der Schaar,
- Abstract要約: 本稿では,大規模言語モデルの出力に対する意味的類似性を評価するために,ベンチマークを生成する新しい手法を提案する。
我々は4つの異なる領域(一般知識、バイオメディシン、ファイナンス、生物学)でベンチマークデータセットを生成する。
セマンティックな変化のサブタイプとベンチマークの領域がセマンティックな類似性手法の性能に与える影響を観察する。
- 参考スコア(独自算出の注目度): 42.873412319680035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the open-form textual responses generated by Large Language Models (LLMs) typically requires measuring the semantic similarity of the response to a (human generated) reference. However, there is evidence that current semantic similarity methods may capture syntactic or lexical forms over semantic content. While benchmarks exist for semantic equivalence, they often suffer from high generation costs due to reliance on subjective human judgment, limited availability for domain-specific applications, and unclear definitions of equivalence. This paper introduces a novel method for generating benchmarks to evaluate semantic similarity methods for LLM outputs, specifically addressing these limitations. Our approach leverages knowledge graphs (KGs) to generate pairs of natural-language statements that are semantically similar or dissimilar, with dissimilar pairs categorized into one of four sub-types. We generate benchmark datasets in four different domains (general knowledge, biomedicine, finance, biology), and conduct a comparative study of semantic similarity methods including traditional natural language processing scores and LLM-as-a-judge predictions. We observe that the sub-type of semantic variation, as well as the domain of the benchmark impact the performance of semantic similarity methods, with no method being consistently superior. Our results present important implications for the use of LLM-as-a-judge in detecting the semantic content of text. Code is available at https://github.com/QiyaoWei/semantic-kg and the dataset is available at https://huggingface.co/datasets/QiyaoWei/Semantic-KG.
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成されるオープンフォームのテキスト応答を評価するには、典型的には(人間が生成した)参照に対する応答の意味的類似性を測定する必要がある。
しかし、現在の意味的類似性法は、意味的内容よりも構文的または語彙的形式を捉えることができるという証拠がある。
セマンティックな等価性のためのベンチマークが存在するが、主観的な人間の判断への依存、ドメイン固有のアプリケーションの可用性の制限、および不明確な等価性の定義により、しばしば高コストに悩まされる。
本稿では,LLM出力のセマンティック類似性評価のためのベンチマーク生成手法を提案する。
提案手法では,知識グラフ(KG)を用いて,意味的に類似あるいは異種な自然言語文のペアを生成し,そのペアを4つのサブタイプのうちの1つに分類する。
我々は,4つの分野(一般知識,バイオメディシン,ファイナンス,生物学)でベンチマークデータセットを生成し,従来の自然言語処理スコアやLSM-as-a-judge予測を含む意味的類似性手法の比較研究を行った。
セマンティックな変化のサブタイプとベンチマークの領域がセマンティックな類似性メソッドの性能に影響を与えているのを観察する。
この結果から,LLM-as-a-judgeがテキストの意味的内容の検出に有用であることが示唆された。
コードはhttps://github.com/QiyaoWei/semantic-kgで、データセットはhttps://huggingface.co/datasets/QiyaoWei/Semantic-KGで入手できる。
関連論文リスト
- SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文 参考訳(メタデータ) (2025-11-21T17:30:18Z) - Semantic F1 Scores: Fair Evaluation Under Fuzzy Class Boundaries [65.89202599399252]
本稿では,主観的,ファジィなマルチラベル分類のための新しい評価指標であるセマンティックF1スコアを提案する。
セマンティックF1は意味的に関連があるが、識別できないラベルに部分クレジットを与えることで、人間の不一致やファジィ圏の境界によって特徴付けられる領域の現実をよりよく反映する。
論文 参考訳(メタデータ) (2025-09-25T21:48:48Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution [0.0]
本稿では,意味的類似性アンサンブルを構築するための文法的進化に基づく自動戦略を提案する。
標準ベンチマークデータセットの実験では、提案手法が既存のアンサンブル手法よりも精度が高いことが示されている。
論文 参考訳(メタデータ) (2023-07-03T10:53:05Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。