論文の概要: Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination
- arxiv url: http://arxiv.org/abs/2509.00072v1
- Date: Tue, 26 Aug 2025 16:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.050789
- Title: Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination
- Title(参考訳): メモリ化を超えて - ベンチマーク汚染の緩和戦略としての推論駆動合成
- Authors: Terry Jingchen Zhang, Gopal Dev, Ning Wang, Nicole Ni, Wenyuan Jiang, Yinya Huang, Bernhard Schölkopf, Mrinmaya Sachan, Zhijing Jin,
- Abstract要約: 本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
- 参考スコア(独自算出の注目度): 77.69093448529455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capability evaluation of large language models (LLMs) is increasingly shadowed by rising concerns of data contamination that cast doubts on whether static benchmarks measure genuine reasoning or mere memorization. We present an empirical study using an infinitely scalable framework to synthesize research-level QA directly from arXiv papers, harnessing the natural temporal structure of research publications where performance decay after knowledge cutoffs may indicate potential contamination. We evaluated 4 frontier model represented by 2 models of different knowledge cutoff dates per family on 1,643 multi-step reasoning questions synthesized from 20,277 arXiv papers stratified over 26 months, covering at least 6 months before and after all cutoff dates. Our results consistently showed a lack of significant performance decay near knowledge cutoff dates for models of various sizes, developers, and release dates. We further performed a comparative analysis with previous longitudinal studies that reported significant post-cutoff performance decay using directly retrieved questions based on public data. we hypothesize that the multi-step reasoning required by our synthesis pipeline offered additional complexity that goes deeper than shallow memorization, which effectively serves a mitigation strategy against benchmark contamination. We fully open source our code and dataset to aid reproducibility and advocate for a paradigm shift that prioritize reasoning-driven synthesis to construct benchmarks over simply collecting newly released questions periodically.
- Abstract(参考訳): 大規模言語モデル(LLM)の能力評価は、静的ベンチマークが真の推論や単なる暗記を計測するかどうかに疑問を呈するデータ汚染に対する懸念の高まりによって、ますます影を落としている。
本稿では、無限にスケーラブルなフレームワークを用いて、arXiv論文から直接研究レベルのQAを合成し、知識切断後の性能劣化が潜在的汚染を示す研究出版物の時間構造を利用する実証的研究について述べる。
20,277 arXiv論文から合成した1,643個の多段階推論質問に対して,家族ごとの知識遮断日数の異なる2つのモデルで表される4つのフロンティアモデルについて検討した。
私たちの結果は、さまざまなサイズ、開発者、リリース日といったモデルの知識カットオフ日近くで、パフォーマンスが著しく低下していることが一貫して示されています。
さらに, 過去の縦断調査との比較分析を行い, 公開データに基づいて直接検索した質問に対して, カットオフ後の性能低下を報告した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらし、ベンチマーク汚染に対する緩和戦略を効果的に役立てる、という仮説を立てた。
再現性を支援するために、コードとデータセットを完全にオープンソース化し、推論駆動合成を優先して、新しくリリースされた質問を定期的に収集するよりも、ベンチマークを構築するパラダイムシフトを提唱しています。
関連論文リスト
- Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI [0.6268282038459305]
疫学データを合成するための効率的かつ便利な方法として, 対向ランダム林(ARF)を提案する。
6つの疫学論文から統計学的解析を再現し,原本と合成結果を比較した。
複数の合成データ複製の結果は、元の結果と一貫して一致している。
論文 参考訳(メタデータ) (2025-08-19T22:51:40Z) - Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Retrieving Classes of Causal Orders with Inconsistent Knowledge Bases [0.8192907805418583]
大規模言語モデル(LLM)は、テキストベースのメタデータから因果的知識を抽出するための有望な代替手段として登場した。
LLMは信頼できない傾向があり、幻覚を起こす傾向があり、その限界を考慮に入れた戦略を必要とする。
本稿では,非循環型トーナメントのクラスを導出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T16:37:51Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。