論文の概要: SwanNLP at SemEval-2026 Task 5: An LLM-based Framework for Plausibility Scoring in Narrative Word Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2604.16262v1
- Date: Fri, 17 Apr 2026 17:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:20.024602
- Title: SwanNLP at SemEval-2026 Task 5: An LLM-based Framework for Plausibility Scoring in Narrative Word Sense Disambiguation
- Title(参考訳): SwanNLP at SemEval-2026 Task 5: A LLM-based Framework for Plausibility Scoring in Narrative Word Sense Disambiguation
- Authors: Deshan Sumanathilaka, Nicholas Micallef, Julian Hough, Saman Jayasinghe,
- Abstract要約: SemEval-2026 Task 5は、短いストーリー内で単語感覚の人間の知覚的妥当性を予測するタスクを導入することで、このギャップに対処する。
構造的推論機構を用いた物語テキストにおける単語感覚の可視性評価のためのLLMに基づくフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.5932002706017556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in language models have substantially improved Natural Language Understanding (NLU). Although widely used benchmarks suggest that Large Language Models (LLMs) can effectively disambiguate, their practical applicability in real-world narrative contexts remains underexplored. SemEval-2026 Task 5 addresses this gap by introducing a task that predicts the human-perceived plausibility of a word sense within a short story. In this work, we propose an LLM-based framework for plausibility scoring of homonymous word senses in narrative texts using a structured reasoning mechanism. We examine the impact of fine-tuning low-parameter LLMs with diverse reasoning strategies, alongside dynamic few-shot prompting for large-parameter models, on accurate sense identification and plausibility estimation. Our results show that commercial large-parameter LLMs with dynamic few-shot prompting closely replicate human-like plausibility judgments. Furthermore, model ensembling slightly improves performance, better simulating the agreement patterns of five human annotators compared to single-model predictions
- Abstract(参考訳): 言語モデルの最近の進歩は、自然言語理解(Nugual Language Understanding, NLU)を大幅に改善した。
広く使われているベンチマークでは、LLM(Large Language Models)が効果的にあいまいにできることが示唆されているが、現実の物語の文脈におけるそれらの実践的適用性は未解明のままである。
SemEval-2026 Task 5は、短いストーリーの中で単語感覚の人間の知覚的妥当性を予測するタスクを導入することで、このギャップに対処する。
本研究では、構造化推論機構を用いた物語テキストにおける同義語感覚の妥当性評価のためのLCMに基づくフレームワークを提案する。
本研究では,様々な推論手法を用いた微調整低パラメータLPMと,大口径モデルの動的ショットプロンプトが精度の高い識別と妥当性評価に与える影響について検討する。
以上の結果から, 動的数発の商業用大口径LCMは, 人為的な可視性判定を密に再現する可能性が示唆された。
さらに、モデルアンセムブルは性能をわずかに改善し、5つのアノテータの一致パターンを1つのモデル予測よりも良くシミュレートする。
関連論文リスト
- Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study [11.117380681219295]
高品質なテキスト記述を自動生成するフレームワークを提案する。
自然言語生成(NLG)メトリクスの包括的スイートを用いて,これらの説明の質を厳格に評価する。
本実験により,自動説明は人手による説明に比べて高い競争力を示すことが示された。
論文 参考訳(メタデータ) (2025-08-13T12:59:08Z) - Exploring Robustness of LLMs to Paraphrasing Based on Sociodemographic Factors [7.312170216336085]
我々は、SocialIQAデータセットを拡張して、社会デマログラフィー要因に基づく多様なパラフレーズセットを作成する。
人口統計に基づく言い回しが言語モデルの性能に大きな影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2025-01-14T17:50:06Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。