論文の概要: An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs
- arxiv url: http://arxiv.org/abs/2603.05400v1
- Date: Thu, 05 Mar 2026 17:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.34362
- Title: An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs
- Title(参考訳): 低パラメータLLMを用いた単語センス曖昧化のための探索・分析・曖昧化フレームワーク
- Authors: Deshan Sumanathilaka, Nicholas Micallef, Julian Hough,
- Abstract要約: Word Sense Disambiguation (WSD)は、自然言語処理(NLP)における重要な課題である。
本研究では,低パラメータ大言語モデル(4Bパラメータ)が微調整戦略により同等の結果が得られるかどうかを検討する。
以上の結果から,Chain-of-Thought(CoT)に基づく推論と近接語解析を併用することで,ゼロショット設定でGPT-4-Turboに匹敵する性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 3.925313161884993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word Sense Disambiguation (WSD) remains a key challenge in Natural Language Processing (NLP), especially when dealing with rare or domain-specific senses that are often misinterpreted. While modern high-parameter Large Language Models (LLMs) such as GPT-4-Turbo have shown state-of-the-art WSD performance, their computational and energy demands limit scalability. This study investigates whether low-parameter LLMs (<4B parameters) can achieve comparable results through fine-tuning strategies that emphasize reasoning-driven sense identification. Using the FEWS dataset augmented with semi-automated, rationale-rich annotations, we fine-tune eight small-scale open-source LLMs (e.g. Gemma and Qwen). Our results reveal that Chain-of-Thought (CoT)-based reasoning combined with neighbour-word analysis achieves performance comparable to GPT-4-Turbo in zero-shot settings. Importantly, Gemma-3-4B and Qwen-3-4B models consistently outperform all medium-parameter baselines and state-of-the-art models on FEWS, with robust generalization to unseen senses. Furthermore, evaluation on the unseen "Fool Me If You Can'' dataset confirms strong cross-domain adaptability without task-specific fine-tuning. This work demonstrates that with carefully crafted reasoning-centric fine-tuning, low-parameter LLMs can deliver accurate WSD while substantially reducing computational and energy demands.
- Abstract(参考訳): Word Sense Disambiguation (WSD) は、自然言語処理(NLP)において重要な課題であり、特にしばしば誤解される稀な、あるいはドメイン固有の感覚を扱う場合である。
GPT-4-Turboのような現代の高パラメータ大言語モデル(LLM)は最先端のWSD性能を示しているが、計算とエネルギーの要求はスケーラビリティを制限している。
本研究では,低パラメータ (<4B パラメータ) の LLM が,推論駆動型感覚識別を重視した微調整戦略により同等の結果が得られるかどうかを検討する。
FEWSデータセットにセミオートマチックで合理的なアノテーションを付加し,8つの小規模オープンソース LLM (Gemma や Qwen など) を微調整する。
以上の結果から,Chain-of-Thought(CoT)に基づく推論と近接語解析を併用することで,ゼロショット設定でGPT-4-Turboに匹敵する性能が得られることがわかった。
重要なことに、Gemma-3-4B と Qwen-3-4B モデルは、FEWS 上のすべての中級パラメータのベースラインと最先端モデルより一貫して優れており、目に見えない感覚に頑健な一般化がなされている。
さらに、未確認の"Fool Me If You Can''データセットの評価は、タスク固有の微調整なしで、強いクロスドメイン適応性を確認する。
この研究は、慎重に設計された推論中心の微調整により、低パラメータのLLMが正確なWSDを提供すると同時に、計算とエネルギーの要求を大幅に削減できることを実証している。
関連論文リスト
- Ask, Clarify, Optimize: Human-LLM Agent Collaboration for Smarter Inventory Control [11.796330722859574]
エンド・ツー・エンドの問題解決者としてのLLMの導入は,有意義な「ハロシン化税」を課していることを示す。
本稿では,数学的計算から意味論的推論を厳密に分離するハイブリッドエージェントフレームワークを提案する。
本研究は, LLMを, 厳密な解法ベースのポリシーを非専門家に利用できるようにする自然言語インタフェースとして位置づけた。
論文 参考訳(メタデータ) (2025-12-31T21:45:54Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - PrismRAG: Boosting RAG Factuality with Distractor Resilience and Strategized Reasoning [57.89188317734747]
PrismRAGはこのモデルを、イントラクタを意識したQAペアで訓練し、金の証拠と微妙なイントラクタパスを混合する。
LLMを計画し、合理化し、人間工学的な指示に頼らずに合成する推論中心の習慣を取り入れている。
論文 参考訳(メタデータ) (2025-07-25T00:15:31Z) - CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [15.560280546809457]
CoT(Chain-of- Thought)推論は、複雑なタスクにおける大規模言語モデルのLLM(LLM)パフォーマンスを高める。
提案するCoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。
精度は4.0%から44.3%に向上した。
論文 参考訳(メタデータ) (2025-04-18T07:55:09Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。
13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。
ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文 参考訳(メタデータ) (2025-04-02T20:18:50Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Lightweight Modular Parameter-Efficient Tuning for Open-Vocabulary Object Detection [2.1155908599769764]
パラメータ効率の良いオープン語彙オブジェクト検出のための軽量なモジュラーフレームワークUniProj-Detを提案する。
UniProj-Detは事前訓練されたバックボーンを凍結し、学習可能なモダリティトークンを備えたユニバーサル・プロジェクション・モジュールを導入し、最小限のコストで視覚-言語適応を可能にする。
論文 参考訳(メタデータ) (2024-08-20T12:27:53Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - ReWOO: Decoupling Reasoning from Observations for Efficient Augmented
Language Models [32.95155349925248]
本稿では,外部観測から推論プロセスを取り除き,トークン消費量を大幅に削減するモジュラーパラダイムReWOOを提案する。
マルチステップ推論ベンチマークであるHotpotQAにおいて,ReWOOは5倍のトークン効率と4%の精度向上を実現している。
本稿では,175B GPT3.5から7B LLaMAへの推論能力をオフロードし,真に効率的でスケーラブルなALMシステムの可能性を示す。
論文 参考訳(メタデータ) (2023-05-23T00:16:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。