論文の概要: LLMs Show Surface-Form Brittleness Under Paraphrase Stress Tests
- arxiv url: http://arxiv.org/abs/2510.08616v1
- Date: Wed, 08 Oct 2025 06:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.20012
- Title: LLMs Show Surface-Form Brittleness Under Paraphrase Stress Tests
- Title(参考訳): LLMはパラフレッシブストレステストで表面形状の脆さを示す
- Authors: Juan Miguel Navarro Carranza,
- Abstract要約: LLM(Large Language Models)のベンチマークスコアは、テスト項目の記憶や、ほぼ重複によって膨らませることができる。
本稿では,ベンチマーク質問のパラフレーズバージョンにおけるモデルの再評価により一般化を探索するプロトコルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmark scores for Large Language Models (LLMs) can be inflated by memorization of test items or near duplicates. We present a simple, protocol that probes generalization by re-evaluating models on paraphrased versions of benchmark questions. Using Mistral-7B-Instruct and Qwen2.5-7B-Instruct, we measure the accuracy gap between original and paraphrased items on ARC-Easy and ARC-Challenge. Our pipeline controls decoding, enforces multiple-choice output format, and includes a robust paraphrase-cleaning step to preserve semantics. We find that paraphrasing induces a non-trivial accuracy drop (original vs. paraphrased), consistent with prior concerns about contamination and brittle surface-form shortcuts.
- Abstract(参考訳): LLM(Large Language Models)のベンチマークスコアは、テスト項目の記憶や、ほぼ重複によって膨らませることができる。
本稿では,パラメータ付きベンチマーク質問のモデルの再評価によって一般化を探索する,シンプルなプロトコルを提案する。
Mistral-7B-Instruct と Qwen2.5-7B-Instruct を用いて,ARC-Easy と ARC-Challenge のオリジナル項目とパラフレーズ項目の精度ギャップを測定する。
パイプラインはデコーディングを制御し、複数の選択出力フォーマットを強制し、セマンティクスを保存するための堅牢なパラフレーズクリーニングステップを含む。
パラフレーズ化は, 汚染や脆性表面形状のショートカットに対する既往の懸念と一致して, 非自明な精度低下(原文対パラフレーズ化)を引き起こす。
関連論文リスト
- Do LLMs Know They Are Being Tested? Evaluation Awareness and Incentive-Sensitive Failures in GPT-OSS-20B [1.948261185683419]
本研究では,「評価香り」がコンメンシュレート能力を得ることなく測定性能を膨らませるかどうかを考察する。
6つのペアのA/Bシナリオを実行し、タスク内容を保持し、フレーミングの異なる状態でデコードします。
再現可能なA/Bフレームワーク(バンキング、バリデータ、ラン毎のスコア、スクリプト)と実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-10-08T09:49:05Z) - DRES: Benchmarking LLMs for Disfluency Removal [27.083825614818135]
um"、"uh"、インタージェクション、括弧、編集されたステートメントなどの分散は、音声駆動システムにおいて永続的な課題である。
制御されたテキストレベルのベンチマークである拡散除去評価スイートは、このタスクに対して再現可能なセマンティックアッパーバウンドを確立する。
DRESは、人間の注釈付きSwitchboard transcriptの上に構築され、ASRエラーからの拡散除去と音響的変動を分離する。
論文 参考訳(メタデータ) (2025-09-24T17:08:12Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Explanation based In-Context Demonstrations Retrieval for Multilingual Grammatical Error Correction [19.95974494301433]
文法的誤り訂正(英: Grammatical error correction, GEC)は、自然言語テキストにおける文法的誤り、綴り、意味的誤りを補正することを目的としている。
自然言語文法的誤り説明(GEE)に基づく新しい検索手法を提案する。
提案手法は,テスト入力のGEEと事前構築したデータベースのサンプルとをマッチングすることにより,適切な小ショットのデモを検索する。
論文 参考訳(メタデータ) (2025-02-12T15:41:43Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - PARAPHRASUS : A Comprehensive Benchmark for Evaluating Paraphrase Detection Models [5.980822697955566]
PARAPHRは、パラフレーズ検出モデルの多次元評価、ベンチマーク、選択のためのベンチマークである。
詳細な評価レンズ下でのパラフレーズ検出モデルは,単一分類データセットでは取得できないトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-18T15:33:48Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Beyond mAP: Towards better evaluation of instance segmentation [23.562251593257674]
平均精度は、ハイリコール範囲における重複予測をペナルティ化しない。
本研究では,空間的およびカテゴリー的両方の重複予測の量を明示的に測定する2つの新しい手法を提案する。
当社のセマンティックソーティングとNMSは,ヘッジド予測を緩和し,APを保存するためのプラグイン・アンド・プレイモジュールとして追加することができる。
論文 参考訳(メタデータ) (2022-07-04T17:56:14Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。