論文の概要: Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
- arxiv url: http://arxiv.org/abs/2602.17316v1
- Date: Thu, 19 Feb 2026 12:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.026659
- Title: Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation
- Title(参考訳): 異なるスコアの同じ意味:LLM評価における語彙的および構文的感度
- Authors: Bogdan Kostić, Conor Fallon, Julian Risch, Alexander Löser,
- Abstract要約: 本稿では,23の現代大言語モデル(LLM)の絶対的性能と相対的ランク付けが,制御的,真に等価な語彙的および構文的摂動に与える影響について検討する。
その結果、語彙的摂動は、ほぼすべてのモデルやタスクに対して、実質的、統計的に有意な性能劣化を誘導する一方、構文的摂動はより異質な効果を持ち、時には結果を改善することが示されている。
- 参考スコア(独自算出の注目度): 40.210132040677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) has established standardized evaluation benchmarks as the primary instrument for model comparison. Yet, their reliability is increasingly questioned due to sensitivity to shallow variations in input prompts. This paper examines how controlled, truth-conditionally equivalent lexical and syntactic perturbations affect the absolute performance and relative ranking of 23 contemporary LLMs across three benchmarks: MMLU, SQuAD, and AMEGA. We employ two linguistically principled pipelines to generate meaning-preserving variations: one performing synonym substitution for lexical changes, and another using dependency parsing to determine applicable syntactic transformations. Results show that lexical perturbations consistently induce substantial, statistically significant performance degradation across nearly all models and tasks, while syntactic perturbations have more heterogeneous effects, occasionally improving results. Both perturbation types destabilize model leaderboards on complex tasks. Furthermore, model robustness did not consistently scale with model size, revealing strong task dependence. Overall, the findings suggest that LLMs rely more on surface-level lexical patterns than on abstract linguistic competence, underscoring the need for robustness testing as a standard component of LLM evaluation.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、モデル比較の主要な指標として標準化された評価ベンチマークが確立された。
しかし、入力プロンプトの浅さに敏感なため、信頼性はますます疑問視されている。
本稿では, MMLU, SQuAD, AMEGAの3つのベンチマークにおいて, 制御された, 真に等価な語彙的摂動と構文的摂動が23の現代LLMの絶対性能と相対ランクに与える影響について検討する。
我々は2つの言語原理のパイプラインを用いて意味保存のバリエーションを生成する。1つは語彙変化のシノニム置換を行い、もう1つは依存関係解析を用いて構文変換を行う。
その結果、語彙的摂動は、ほぼすべてのモデルやタスクに対して、実質的、統計的に有意な性能劣化を誘導する一方、構文的摂動はより異質な効果を持ち、時には結果を改善することが示されている。
両方の摂動型は、複雑なタスクでモデルリーダーボードを不安定にします。
さらに、モデルロバスト性はモデルサイズと一貫してスケールしておらず、強いタスク依存が明らかになりました。
全体として,LLMは抽象言語能力よりも表面レベルの語彙パターンに依存しており,LLM評価の標準コンポーネントとしてロバストネステストの必要性が強調されている。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - On Robustness and Reliability of Benchmark-Based Evaluation of LLMs [6.121856629864516]
LLM(Large Language Models)の有効性は通常、MMLU、ARC-C、HellaSwagなどのベンチマークによって評価される。
実世界のアプリケーションは言語的多様性を伴い、同じ質問やクエリの様々なリワードでモデルの有効性を維持する必要がある。
そこで我々は,LLMの頑健さをベンチマーク問題に言い換えて体系的に評価し,ベンチマークに基づく評価がモデル能力の信頼性を評価できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-09-04T08:43:27Z) - FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [24.39952838336609]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのフレームワークである。
FLUKEの実用性は、6つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。