論文の概要: NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models
- arxiv url: http://arxiv.org/abs/2605.30393v1
- Date: Thu, 28 May 2026 12:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.138427
- Title: NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models
- Title(参考訳): NumLeak: ファンデーションモデルにおける潜在ラベルとしての公開数値ベンチマーク
- Authors: Anany Kotawala,
- Abstract要約: NumLeakは、プロダクションモデル上のAPI境界プローブとオープン因果LM上のホワイトボックス制御バリデーションを組み合わせた測定フレームワークである。
最上位のフロンティアLLMは3シードプールのピアソン・r=0.97-0.99でファマ・フレンチの過剰リターンをリコールし、5つの兄弟要素で0.15-25bps以内にとどまった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Public numeric benchmarks appear in pretraining, so an evaluation that conditions on a date may be measuring memorized recall rather than out-of-sample skill. We introduce NumLeak, a measurement framework that combines API-boundary probes on production models with a white-box controlled validation on an open causal LM. Top-tier frontier LLMs recall the Fama-French market excess return at 3-seed pooled Pearson r=0.97-0.99 while staying within 0.15 within-25bps on the five sibling factors; comparable fidelity appears on U.S. unemployment, CPI inflation, and NOAA temperature. On a recent-release holdout, parse rate collapses to 21-57% but r stays at approximately 0.99 on months answered, the refuse-or-recall asymmetry a memorized channel predicts. The white-box experiment reproduces the dose-response, and logprob ranking detects memorization that open-ended generation misses, implying closed-API black-box probes understate the channel. A Sonnet "date to market-sentiment" regression that correlates with true Mkt-RF at r=0.74 collapses to r=0.02 once the model's own recall is residualized out. A one-line system-prompt defense blocks 99.8% of a non-adaptive single-turn suffix attack set at near-zero utility cost on conceptual and historical-narrative queries
- Abstract(参考訳): 公開数値ベンチマークは事前トレーニングに現れるため、日付の条件がサンプル外のスキルよりも記憶されたリコールを計測している可能性がある。
NumLeakは実運用モデル上のAPI境界プローブとオープン因果LM上でのホワイトボックス制御バリデーションを組み合わせた測定フレームワークである。
最上位のフロンティアのLLMは、Pearson r=0.97-0.99の3シードプールでのファマ・フレンチ市場の過剰リターンを思い出し、5つの4つの要因について0.15-25bps以内にとどまった。
最近のリリースのホールトアウトでは、パースレートは21-57%に低下するが、記憶されたチャネルが予測するリトリート・オー・リコールの非対称性は、数ヶ月で約0.99に留まる。
ホワイトボックス実験は、線量応答を再現し、ログプロブランキングは、オープンエンドジェネレーションが見逃す記憶を検知し、チャネルを覆い隠す閉鎖APIブラックボックスプローブを暗示する。
正のMkt-RFとr=0.74で相関する「市場感」回帰は、モデルがリコールされた後にr=0.02に崩壊する。
概念的および歴史的ナラティブクエリに対するほぼゼロのユーティリティコストで設定された非適応単ターンサフィックス攻撃の99.8%の1ラインシステムプロンプト防御ブロック
関連論文リスト
- VERDI: Single-Call Confidence Estimation for Verification-Based LLM Judges via Decomposed Inference [0.0]
VERDI(verification-Decomposed Inference Inference)は、構造化された裁判官から信頼を抽出する手法である。
VERDIは各評価をサブチェックに分解し、3つの構造信号を導出する。
3つの公開ベンチマークで、VERDIはGPT-4.1-miniでAUROC 0.72-0.91、GPT-5.4-miniで0.66-0.80を達成した。
論文 参考訳(メタデータ) (2026-05-11T23:39:19Z) - MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents [0.0]
検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
論文 参考訳(メタデータ) (2026-05-05T08:15:41Z) - PHBench: A Benchmark for Predicting Startup Series A Funding from Product Hunt Launch Signals [0.0]
Product Huntの構造化されたローンチシグナルには、シリーズAの資金調達結果に関する統計的に重要な予測情報が含まれている。
2019年から2025年までの67,292件のProduct Hunt記事からPHBenchを構築し、決定論的ドメインマッチングを通じてCrunchbaseの資金調達記録と関連づけた。
打ち上げから18ヶ月以内に確認されたシリーズAは528件(陽性率は0.78%)。
論文 参考訳(メタデータ) (2026-05-03T17:03:33Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Sparse Regression under Correlation and Weak Signals: A Reproducible Benchmark of Classical and Bayesian Methods [1.6679662639178268]
合成データに対する6つのスパース回帰法をベンチマークした。
ベイズ法は予測誤差(MSE 72 vs. 108-267)で勝利し、ホースシューは95%近くをカバーしている(94.8%)。
可変選択の場合、F1 0.47のラッソとスパイク・アンド・スラブのネクタイは、後部が不要な場合に事実上のデフォルトとなる。
論文 参考訳(メタデータ) (2026-04-04T15:46:44Z) - Learn by Surprise, Commit by Proof [0.0]
本稿では,自律的知識獲得のための自己学習後フレームワークを提案する。
通路が異常に高いパートーケン損失を発生させると、L SCPはそれをフラグ化し、モデルに自身の知識を明確にさせるQ&A連鎖を生成する。
学習強度は1つのパラメータ$r$で管理される。
論文 参考訳(メタデータ) (2026-04-02T12:17:10Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Censored Quantile Regression Forest [81.9098291337097]
我々は、検閲に適応し、データが検閲を示さないときに量子スコアをもたらす新しい推定方程式を開発する。
提案手法は, パラメトリックなモデリング仮定を使わずに, 時間単位の定量を推定することができる。
論文 参考訳(メタデータ) (2020-01-08T23:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。