論文の概要: Do Large Language Models Understand Word Senses?
- arxiv url: http://arxiv.org/abs/2509.13905v1
- Date: Wed, 17 Sep 2025 11:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.82773
- Title: Do Large Language Models Understand Word Senses?
- Title(参考訳): 大規模言語モデルは単語感覚を理解するか?
- Authors: Domenico Meconi, Simone Stirpe, Federico Martelli, Leonardo Lavalle, Roberto Navigli,
- Abstract要約: 命令調整型大言語モデル(LLM)の単語センス曖昧化(WSD)機能について検討する。
GPT-4o や DeepSeek-V3 などの先行モデルでは,WSD システムと同等の性能が得られた。
その結果,LLMは文脈における単語の意味を最大98%の精度で説明できることがわかった。
- 参考スコア(独自算出の注目度): 30.57967629882536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the meaning of words in context is a fundamental capability for Large Language Models (LLMs). Despite extensive evaluation efforts, the extent to which LLMs show evidence that they truly grasp word senses remains underexplored. In this paper, we address this gap by evaluating both i) the Word Sense Disambiguation (WSD) capabilities of instruction-tuned LLMs, comparing their performance to state-of-the-art systems specifically designed for the task, and ii) the ability of two top-performing open- and closed-source LLMs to understand word senses in three generative settings: definition generation, free-form explanation, and example generation. Notably, we find that, in the WSD task, leading models such as GPT-4o and DeepSeek-V3 achieve performance on par with specialized WSD systems, while also demonstrating greater robustness across domains and levels of difficulty. In the generation tasks, results reveal that LLMs can explain the meaning of words in context up to 98\% accuracy, with the highest performance observed in the free-form explanation task, which best aligns with their generative capabilities.
- Abstract(参考訳): 文脈における単語の意味を理解することは、大規模言語モデル(LLM)の基本的な能力である。
広範にわたる評価努力にもかかわらず、LLMが真に単語感覚を把握している証拠を示す範囲は、未発見のままである。
本稿では,このギャップを両立させることにより解決する。
一 命令調整LDMのワードセンス曖昧化(WSD)能力であって、そのタスク用に特別に設計された最先端システムとの性能を比較して、
二 単語感覚を三つの生成的環境(定義生成、自由形説明、例生成)で理解するための、2つのトップパフォーマンスなオープンソースLLMの能力。
特に、WSDタスクでは、GPT-4oやDeepSeek-V3といった先導モデルが、特定のWSDシステムと同等のパフォーマンスを達成すると同時に、ドメイン間のロバスト性や難易度も向上しています。
生成タスクでは,LLMが文脈中の単語の意味を最大98倍の精度で説明できることを示す。
関連論文リスト
- Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。
既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。
階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文 参考訳(メタデータ) (2025-06-03T09:01:08Z) - Can large language models understand uncommon meanings of common words? [30.527834781076546]
大規模言語モデル(LLM)は、様々な自然言語理解(NLU)タスクに大きく進歩している。
しかし、LLMがオウムなのか、本当の意味で世界を理解するのかは、広く認知されている試験機構が欠如している。
本稿では,新しい評価指標を用いたレキシカルセマンティックデータセットの革新的構築について述べる。
論文 参考訳(メタデータ) (2024-05-09T12:58:22Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - LMMS Reloaded: Transformer-based Sense Embeddings for Disambiguation and
Beyond [2.9005223064604078]
近年のトランスフォーマーに基づく言語モデルでは, 感覚特有の情報を確実に伝達する文脈表現が可能であることが証明されている。
14のNLM変種に関する探索解析により,NLMのすべての層からの情報を活用するための,より原理的なアプローチを導入する。
また、タスク固有のモデルとは対照的に、これらの感覚埋め込みの汎用性を強調し、WSD以外のいくつかの感覚関連タスクに適用する。
論文 参考訳(メタデータ) (2021-05-26T10:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。