論文の概要: Evaluating the Evaluator: Problems with SemEval-2020 Task 1 for Lexical Semantic Change Detection
- arxiv url: http://arxiv.org/abs/2604.13232v1
- Date: Tue, 14 Apr 2026 19:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.260717
- Title: Evaluating the Evaluator: Problems with SemEval-2020 Task 1 for Lexical Semantic Change Detection
- Title(参考訳): 評価器の評価:語彙意味変化検出におけるSemEval-2020 Task 1の問題点
- Authors: Bach Phan-Tat, Kris Heylen, Dirk Geeraerts, Stefano De Pascale, Dirk Speelmana,
- Abstract要約: 語彙意味変化検出のための最も影響力のあるベンチマークであるSemEval-2020 Task 1を再検討する。
ベンチマークは、かなりのコーパスと前処理の問題に影響されていることを示す。
我々は、限定言語の範囲が限定された小さな目標セットは現実主義を減らし、統計的不確実性を増大させると主張している。
- 参考スコア(独自算出の注目度): 1.1340133299604382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This discussion paper re-examines SemEval-2020 Task 1, the most influential shared benchmark for lexical semantic change detection, through a three-part evaluative framework: operationalisation, data quality, and benchmark design. First, at the level of operationalisation, we argue that the benchmark models semantic change mainly as gain, loss, or redistribution of discrete senses. While practical for annotation and evaluation, this framing is too narrow to capture gradual, constructional, collocational, and discourse-level change. Also, the gold labels are outcomes of annotation decisions, clustering procedures, and threshold settings, which could potentially limit the validity of the task. Second, at the level of data quality, we show that the benchmark is affected by substantial corpus and preprocessing problems, including OCR noise, malformed characters, truncated sentences, inconsistent lemmatisation, POS-tagging errors, and missed targets. These issues can distort model behaviour, complicate linguistic analysis, and reduce reproducibility. Third, at the level of bench-mark design, we argue the small curated target sets and limited language coverage reduce realism and increase statistical uncertainty. Taken together, these limitations suggest that the benchmark should be treated as a useful but partial test bed rather than a definitive measure of progress. We therefore call for future datasets and shared tasks to adopt broader theories of semantic change, document pre-processing transparently, expand cross-linguistic coverage, and use more realistic evaluation settings. Such steps are necessary for more valid, interpretable, and generalisable progress in lexical semantic change detection
- Abstract(参考訳): 本稿では,SemEval-2020 Task 1を3つの評価フレームワーク(運用,データ品質,ベンチマーク設計)を通じて,語彙的意味変化検出の最も影響力のある共有ベンチマークとして再検討する。
まず、運用レベルでは、ベンチマークは、主に利得、損失、離散感覚の再分配としての意味的変化をモデル化する。
アノテーションや評価には実用的だが、このフレーミングは、段階的、構造的、コロケーション的、談話レベルの変化を捉えるには狭すぎる。
また、ゴールドラベルは、アノテーションの決定、クラスタリング手順、しきい値設定の結果であり、タスクの有効性を制限する可能性がある。
第2に、データ品質のレベルでは、OCRノイズ、不正な文字、散文、不整合補間、POSタグ付けエラー、欠落ターゲットなど、かなりのコーパスと前処理の問題によってベンチマークが影響を受けることを示す。
これらの問題は、モデルの振る舞いを歪め、言語分析を複雑にし、再現性を低下させる。
第三に、ベンチマーク設計のレベルでは、小さなキュレートされたターゲットセットと限られた言語カバレッジが現実性を低下させ、統計的不確実性を増大させると主張している。
まとめると、これらの制限は、ベンチマークを進捗の確定的な尺度ではなく、有用だが部分的なテストベッドとして扱うべきであることを示唆している。
したがって、セマンティックチェンジのより広範な理論を採用し、透過的に文書化し、言語横断的なカバレッジを拡張し、より現実的な評価設定を使用するために、将来のデータセットとタスクの共有を要求します。
このようなステップは、語彙意味変化検出におけるより有効、解釈可能、および一般化可能な進歩に必要である
関連論文リスト
- LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Reasoning-Driven Amodal Completion: Collaborative Agents and Perceptual Evaluation [17.405818788700234]
本稿では,視覚合成から意味的計画を明確に分離する協調的マルチエージェント推論フレームワークを提案する。
提案手法は,画素生成前の構造的,明示的なプランを生成し,視覚的,意味的に整合した単一パス合成を可能にする。
従来の評価基準の限界に対処し,新しい人間対応評価指標MAC-Scoreを導入する。
論文 参考訳(メタデータ) (2025-12-24T04:39:45Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - Garbage In, Reasoning Out? Why Benchmark Scores are Unreliable and What to Do About It [1.6261897792391753]
我々は、SocialIQa、FauxPas-EAI、ToMiの3つの広く使われている推論ベンチマークの体系的な監査を行う。
ベンチマーク項目と評価手法の両方において,広範な欠陥を明らかにする。
論文 参考訳(メタデータ) (2025-06-30T13:57:28Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。