論文の概要: Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models
- arxiv url: http://arxiv.org/abs/2604.16593v1
- Date: Fri, 17 Apr 2026 17:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.099725
- Title: Revisiting a Pain in the Neck: A Semantic Reasoning Benchmark for Language Models
- Title(参考訳): ネックの痛みを再考する: 言語モデルのセマンティック推論ベンチマーク
- Authors: Yang Liu, Hongming Li, Melissa Xiaohui Qin, Qiankun Liu, Chao Huang,
- Abstract要約: 本稿ではセマンティックQAを提案する。セマンティックQAは意味句処理タスクにおいて言語モデル(LM)を評価するために設計された評価スイートである。
このベンチマークは、既存のマルチワード表現リソースを統合し、それらを統合テストベッドに再編成する。
語彙的コロケーションのような一般的な語彙的現象と、慣用的な表現、名詞的な化合物、動詞的な構成の3つのきめ細かいカテゴリをカバーしている。
- 参考スコア(独自算出の注目度): 13.378248521935191
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present SemanticQA, an evaluation suite designed to assess language models (LMs) in semantic phrase processing tasks. The benchmark consolidates existing multiword expression (MwE) resources and reorganizes them into a unified testbed. It covers both general lexical phenomena, such as lexical collocations, and three fine-grained categories: idiomatic expressions, noun compounds, and verbal constructions. Through SemanticQA, we assess LMs of diverse architectures and scales in extraction, classification, and interpretation tasks, as well as sequential task compositions. We reveal substantial performance variation, particularly on tasks requiring semantic reasoning, highlighting differences in reasoning efficacy and semantic understanding of LMs, providing insights for pushing LMs with stronger comprehension on non-trivial semantic phrases. The evaluation harness and data of SemanticQA are available at https://github.com/jacklanda/SemanticQA.
- Abstract(参考訳): 本稿ではセマンティックQAを提案する。セマンティックQAは意味句処理タスクにおいて言語モデル(LM)を評価するために設計された評価スイートである。
このベンチマークは既存のマルチワード表現(MwE)リソースを統合し、それらを統合テストベッドに再編成する。
語彙的コロケーションのような一般的な語彙的現象と、慣用的な表現、名詞的な化合物、動詞的な構成の3つのきめ細かいカテゴリをカバーしている。
セマンティックQAを通じて、抽出、分類、解釈タスクにおける多様なアーキテクチャとスケールのLMと、シーケンシャルなタスク構成を評価する。
本研究では,特に意味的推論を必要とするタスクにおいて,LMの推論の有効性と意味的理解の相違が顕著に示され,非自明な意味的フレーズに対してより深い理解でLMを推し進める上での洞察を提供する。
SemanticQAの評価ハーネスとデータはhttps://github.com/jacklanda/SemanticQAで公開されている。
関連論文リスト
- SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation [55.26111461168754]
本稿では,文レベルの意味理解とキーワードレベルの意味理解と簡単なキーワードマッチングを組み合わせた新しいアプローチであるSemantic Metric Integrating Lexical Exactnessを紹介する。
人間の判断と計算学的に軽量であり、語彙的評価と意味的評価のギャップを埋める。
論文 参考訳(メタデータ) (2025-11-21T17:30:18Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - Revisiting a Pain in the Neck: Semantic Phrase Processing Benchmark for Language Models [10.482557806309174]
セマンティックフレーズ処理タスクにおける言語モデル(LM)のテストを可能にする総合評価スイートであるLexBenchを紹介する。
我々のベンチマークにより、モデルアーキテクチャにおける15のLMの性能と、分類、抽出、解釈タスクにおけるパラメータスケールを評価する。
我々のベンチマーク結果は,意味的フレーズ理解におけるLMの汎用的能力の向上を目的とした今後の研究に役立つだろう。
論文 参考訳(メタデータ) (2024-05-05T09:20:38Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。