論文の概要: SemBench: A Universal Semantic Framework for LLM Evaluation
- arxiv url: http://arxiv.org/abs/2603.11687v1
- Date: Thu, 12 Mar 2026 08:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.976356
- Title: SemBench: A Universal Semantic Framework for LLM Evaluation
- Title(参考訳): SemBench: LLM評価のためのユニバーサルセマンティックフレームワーク
- Authors: Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau,
- Abstract要約: SemBenchは,Large Language Models(LLMs)のセマンティック能力を評価するための,合成ベンチマークを自動的に生成するフレームワークである。
我々はセムベンチを3つの言語(英語、スペイン語、バスク語)で評価する。
その結果,SemBenchから得られたランキングは,標準WiCデータセットから得られたランキングと強く相関していることがわかった。
- 参考スコア(独自算出の注目度): 5.620203684062621
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in Natural Language Processing (NLP) has been driven by the emergence of Large Language Models (LLMs), which exhibit remarkable generative and reasoning capabilities. However, despite their success, evaluating the true semantic understanding of these models remains a persistent challenge. Traditional benchmarks such as Word-in-Context (WiC) effectively probe this capability, but their creation is resource-intensive and often limited to high-resource languages. In this paper, we introduce SemBench, a framework for automatically generating synthetic benchmarks that assess the semantic competence of LLMs using only dictionary sense definitions and a sentence encoder. This approach eliminates the need for curated example sentences, making it both scalable and language-independent. We evaluate SemBench in three languages (English, Spanish, and Basque) spanning different levels of linguistic resources, and across a wide range of LLMs. Our results show that rankings derived from SemBench strongly correlate with those obtained from standard WiC datasets. Furthermore, our analysis demonstrates that only a small number of examples is required to achieve stable and meaningful rankings. Overall, SemBench provides a lightweight, adaptable, and data-efficient framework for cross-lingual evaluation of semantic understanding in LLMs.
- Abstract(参考訳): 自然言語処理(NLP)の最近の進歩は、大きな言語モデル(LLM)の出現によって引き起こされている。
しかし、それらの成功にもかかわらず、これらのモデルの真の意味的理解を評価することは、依然として永続的な課題である。
Word-in-Context (WiC)のような従来のベンチマークは、この機能を効果的に探索するが、それらの作成はリソース集約であり、しばしば高リソース言語に限られる。
本稿では,辞書センス定義と文エンコーダのみを用いて,LLMのセマンティック能力を評価する合成ベンチマークを自動生成するフレームワークであるSemBenchを紹介する。
このアプローチは、キュレートされた例文の必要性を排除し、スケーラブルで言語に依存しない。
我々は,セムベンチを3つの言語(英語,スペイン語,バスク語)で評価し,言語資源のレベルを多岐にわたって検討した。
その結果,SemBenchから得られたランキングは,標準WiCデータセットから得られたランキングと強く相関していることがわかった。
さらに,安定かつ有意義なランキングを得るためには,少数の例しか必要とされないことを示す。
全体として、SemBenchはLLMにおける意味理解の言語間評価のための軽量で適応性があり、データ効率のよいフレームワークを提供する。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。
IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-23T17:48:25Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - Language Ranker: A Metric for Quantifying LLM Performance Across High and Low-Resource Languages [48.40607157158246]
大規模言語モデル(LLM)は、英語、ドイツ語、フランス語のような高リソース言語で、低リソース言語の能力は依然として不十分である。
内部表現を用いたLLM性能に基づいて,言語をベンチマークし,ランク付けするための固有測度であるLanguage Rankerを提案する。
分析の結果,高リソース言語は英語との類似度が高く,性能が優れ,低リソース言語は類似度が低いことがわかった。
論文 参考訳(メタデータ) (2024-04-17T16:53:16Z) - IERL: Interpretable Ensemble Representation Learning -- Combining
CrowdSourced Knowledge and Distributed Semantic Representations [11.008412414253662]
大言語モデル(LLM)は、単語の意味を分散意味論の形でエンコードする。
近年の研究では、LLMは意図しない、一貫性のない、あるいは間違ったテキストを出力として生成する傾向があることが示されている。
本稿では,LLMとクラウドソースの知識表現を体系的に組み合わせた新しいアンサンブル学習手法であるInterpretable Ensemble Representation Learning (IERL)を提案する。
論文 参考訳(メタデータ) (2023-06-24T05:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。