論文の概要: A Comprehensive Evaluation of Semantic Relation Knowledge of Pretrained Language Models and Humans
- arxiv url: http://arxiv.org/abs/2412.01131v1
- Date: Mon, 02 Dec 2024 05:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:03.227583
- Title: A Comprehensive Evaluation of Semantic Relation Knowledge of Pretrained Language Models and Humans
- Title(参考訳): 事前訓練された言語モデルと人間の意味的関係知識の包括的評価
- Authors: Zhihan Cao, Hiroaki Yamada, Simone Teufel, Takenobu Tokunaga,
- Abstract要約: ハイポナミー, ホロナミー, メロニミー, アンソニミー, 同義語という5つの関係を包括的に評価する枠組みを導入する。
この結果から,人間とモデル間の有意な知識ギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 3.3311266423308252
- License:
- Abstract: Recently, much work has concerned itself with the enigma of what exactly PLMs (pretrained language models) learn about different aspects of language, and how they learn it. One stream of this type of research investigates the knowledge that PLMs have about semantic relations. However, many aspects of semantic relations were left unexplored. Only one relation was considered, namely hypernymy. Furthermore, previous work did not measure humans' performance on the same task as that solved by the PLMs. This means that at this point in time, there is only an incomplete view of models' semantic relation knowledge. To address this gap, we introduce a comprehensive evaluation framework covering five relations beyond hypernymy, namely hyponymy, holonymy, meronymy, antonymy, and synonymy. We use six metrics (two newly introduced here) for recently untreated aspects of semantic relation knowledge, namely soundness, completeness, symmetry, asymmetry, prototypicality, and distinguishability and fairly compare humans and models on the same task. Our extensive experiments involve 16 PLMs, eight masked and eight causal language models. Up to now only masked language models had been tested although causal and masked language models treat context differently. Our results reveal a significant knowledge gap between humans and models for almost all semantic relations. Antonymy is the outlier relation where all models perform reasonably well. In general, masked language models perform significantly better than causal language models. Nonetheless, both masked and causal language models are likely to confuse non-antonymy relations with antonymy.
- Abstract(参考訳): 近年, PLM (pretrained language model) が言語の各側面について何を学べるか,どのように学習するかという謎に,多くの研究が関わってきている。
この種の研究の流れの1つは、PLMが意味的関係について持っている知識を研究することである。
しかし、意味関係の多くの側面は未解明のまま残されている。
一つの関係、すなわちハイパーナミーのみが考慮された。
さらに、従来の研究は、PLMが解決したのと同じ作業において、人間のパフォーマンスを計測しなかった。
これは、この時点では、モデルのセマンティック・リレーション・ナレッジに対する不完全な見方しか存在しないことを意味する。
このギャップに対処するため,ハイポニーミー,ホロニーミー,メロニミー,アントニーミー,シノニムの5つの関係を包括的に評価する枠組みを導入した。
6つの指標(新たに導入された2つの指標)は、最近処理されていない意味関係の知識、すなわち、音性、完全性、対称性、非対称性、原型性、識別可能性の6つの側面に使用し、同じタスクにおける人間とモデルとを公平に比較する。
大規模な実験には16のPLM、8つのマスク、8つの因果言語モデルが含まれています。
これまでは仮面言語モデルのみがテストされていたが、因果語モデルと仮面言語モデルはコンテキストを異なる扱い方をしていた。
この結果から,人間とモデル間の有意な知識ギャップが明らかとなった。
匿名性(Anthonymy)は、すべてのモデルが合理的に機能する不整合関係である。
一般に、マスキング言語モデルは因果言語モデルよりもはるかに優れた性能を発揮する。
それでも、マスクされた言語モデルと因果的な言語モデルの両方が、アンソニミーと非アンソニミー関係を混同する可能性が高い。
関連論文リスト
- A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained
language models [0.0]
BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。
本稿では,BERT,RoBERTa,GPT-2,GPT-3が,これらの共通語に対する一般人的な知識を示す範囲について検討する。
論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-05-25T18:56:26Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Visual Spatial Reasoning [35.5155400193075]
66種類の空間的関係を持つ10k以上の自然なテキストイメージ対を含むデータセットを英語で提示する。
このデータセットは,参照フレームの変動など,難易度の高い言語現象を含むことを示す。
人間の天井は95%以上であり、最先端モデルは70%程度しか達成できない。
論文 参考訳(メタデータ) (2022-04-30T23:03:49Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。