論文の概要: GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations
- arxiv url: http://arxiv.org/abs/2605.07053v1
- Date: Fri, 08 May 2026 00:02:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.684381
- Title: GSM-SEM: Benchmark and Framework for Generating Semantically Variant Augmentations
- Title(参考訳): GSM-SEM:Semantically Variant Augmentationsを生成するベンチマークとフレームワーク
- Authors: Jyotika Singh, Fang Tu, Aziza Mirzadova, Amit Agarwal, Hitesh Laxmichand Patel, Sandip Ghoshal, Miguel Ballesteros, Yassine Benajiba, Weiyi Sun, Graham Horwood, Sujith Ravi, Dan Roth,
- Abstract要約: GSM-SEMは、意味的に多様なベンチマーク変種を生成するための再利用可能なフレームワークである。
GSM8K-SEM, GSM-Symbolic-SEM, GSM-Plus-SEMをGSM8Kと既存の2種類のバリエーションスイート上で生成する。
SEMの3つの変種を、完全に人間検証されたデータセットとしてリリースします。
- 参考スコア(独自算出の注目度): 36.78194119255125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks like GSM8K are popular measures of mathematical reasoning, but leaderboard gains can overstate true capability due to memorization of fixed test sets. Most robustness variants apply surface-level perturbations (paraphrases, renamings, number swaps, distractors) that largely preserve the underlying facts, and static releases can themselves become memorization targets over time. We introduce GSM-SEM, a reusable and stochastic framework for generating semantically diverse benchmark variants with substantially higher semantic variance than prior approaches. GSM-SEM perturbs problem statements by modifying entities, attributes, and/or relationships, frequently altering underlying facts and requiring models to recompute solutions under new conditions, while constraining generation to preserve the original calculations/answer and approximate problem difficulty. GSM-SEM generates fresh variants on each run without requiring re-annotation, reducing reliance on static public benchmarks for evaluation and thereby lowering the bias of memorization. We apply GSM-SEM on GSM8K and two existing variation suites (GSM-Symbolic and GSM-Plus), producing GSM8K-SEM, GSM-Symbolic-SEM, and GSM-Plus-SEM. Evaluating 14 SOTA LLMs, we observe consistent performance drops with larger decline when semantic perturbations are coupled with symbolic/plus variations (average drop rate 28% in maximum strictness configuration of GSM-SEM). We publicly release the three SEM variants as fully human-validated datasets. Finally, to demonstrate applicability beyond GSM-style math problems, we apply GSM-SEM to additional benchmarks including BigBenchHard, LogicBench, and NLR-BIRD.
- Abstract(参考訳): GSM8Kのようなベンチマークは、数学的推論の一般的な尺度であるが、リーダーボードのゲインは、固定されたテストセットの記憶のために真の能力を誇張することができる。
ほとんどのロバストな変種は、表面レベルの摂動(言い換え、リネーム、番号スワップ、イントラクタ)を適用し、基礎となる事実をほとんど保存し、静的なリリース自体が時間の経過とともに記憶のターゲットとなる。
GSM-SEM(GSM-SEM)は,従来のアプローチよりもはるかに高いセマンティック分散を持つセマンティックなベンチマーク変種を生成するための,再利用可能な確率的フレームワークである。
GSM-SEMは、エンティティ、属性、および/または関係を変更し、基礎となる事実を頻繁に変更し、新しい条件下で解を再計算するモデルを必要とする。
GSM-SEMは、再アノテーションを必要とせずに各ランで新しい変種を生成し、評価のための静的な公開ベンチマークへの依存を減らし、メモリ化のバイアスを小さくする。
GSM8KとGSM-SEMにGSM-SEMを適用し、GSM8K-SEM、GSM-Symbolic-SEM、GSM-Plus-SEMを生成する。
意味的摂動と記号的・余分な変動(GSM-SEMの最大厳密度構成では平均28%)が組み合わさった場合,一貫した性能低下を観測した。
SEMの3つの変種を、完全に人間検証されたデータセットとして公開しています。
最後に, GSM-SEMをBigBenchHard, LogicBench, NLR-BIRDなどのベンチマークに適用する。
関連論文リスト
- MGSM-Pro: A Simple Strategy for Robust Multilingual Mathematical Reasoning Evaluation [13.39496848562168]
GSM-SymbolicアプローチによるM GSMデータセットの拡張であるM GSM-Proを紹介する。
我々のデータセットは、M GSM質問毎に、異なる名前、桁、無関係な文脈で5つのインスタンスを提供する。
9つの言語で評価したところ、多くの低リソース言語は、元のテストセットとは異なる桁のインスタンス化でテストすると、大きなパフォーマンス低下を被ることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:40:28Z) - GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts [59.508903852810796]
GSM8K-Vは、純粋に視覚的なマルチイメージの数学的推論ベンチマークである。
GSM8K-Vは、広く使われているテキストベースのGSM8Kからサンプルを視覚的にマッピングすることで構築される。
我々は,GSM8K-V上で,幅広いオープンソースおよびクローズドソースモデルを評価する。
論文 参考訳(メタデータ) (2025-09-29T17:57:05Z) - SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。