論文の概要: Likelihood scoring for continuations of mathematical text: a self-supervised benchmark with tests for shortcut vulnerabilities
- arxiv url: http://arxiv.org/abs/2605.10810v2
- Date: Fri, 15 May 2026 15:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:25.946966
- Title: Likelihood scoring for continuations of mathematical text: a self-supervised benchmark with tests for shortcut vulnerabilities
- Title(参考訳): 数学的テキストの継続のためのいいね!-ショートカット脆弱性テストによる自己教師付きベンチマーク
- Authors: Daniel Ranard,
- Abstract要約: 技術論文に隠されたテキストを予測するためのベンチマークを自動生成する。
別個のスコアラは、$Z$を条件付けせずに次の確率を$Y$に割り当てる。
最近の138の物理学と数学の論文からの1363年の方程式の連続について、GPT-5.5、Opus 4.7、GPT-5.4の予測はすべて文脈制御のクリッピング可能性を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce an automatically generated benchmark for predicting hidden text in technical papers. A paper supplies visible context $X$ and a hidden continuation $Y$; the evaluated model writes an auxiliary forecast string $Z$, and a separate scorer assigns next-token probability to $Y$ both with and without conditioning on $Z$. This gives a label-free test of whether $Z$ transmits information about the continuation, compared against controls where $Z$ is recent context rather than a forecast. Our main testbed is equation-suffix prediction: the predictor sees context and the first part of a displayed equation, then forecasts the rest. The task mixes surface-level arXiv/TeX text modeling with reasoning-sensitive inference; the suffix is one of many roughly equivalent continuations, so the benchmark is read statistically rather than item-by-item. On 1363 equation continuations from 138 recent physics and mathematics papers, forecasts from GPT-5.5, Opus 4.7, and GPT-5.4 nano all improve clipped likelihood over the context control under both Qwen3-8B and Kimi K2.6 scorers, distinguishing model families and reasoning-effort settings without human labels. To emulate shortcuts where $Z$ further primes the scorer rather than making a useful forecast, we also fine-tune the scorer on context-only prompts and apply it to held-out papers as a stronger control. GPT-5.5 forecasts still beat this fine-tuned control; GPT-5.4 nano forecasts do not. Longer prose/TeX continuations show positive but noisier lift over controls, concentrated near the beginning of the target. These results support cross-model likelihood scoring as a static benchmark and as a setup for probing shortcut vulnerabilities before reinforcement learning or model-selection optimization is applied.
- Abstract(参考訳): 技術論文に隠されたテキストを予測するためのベンチマークを自動生成する。
評価されたモデルは補助予測文字列$Z$を書き、別のスコアラは、$Z$を条件付けせずに次の確率を$Y$に割り当てる。
これにより、$Z$が継続に関する情報を送信するかどうかをラベルなしでテストすることができる。
我々の主なテストベッドは方程式接尾辞予測であり、予測者は文脈と表示された方程式の最初の部分を見て、残りを予測する。
このタスクは、表面レベルのarXiv/TeXテキストモデリングと推論に敏感な推論を混合する。
最近の138の物理学と数学の論文からの1363年の方程式の連続について、GPT-5.5、Opus 4.7、GPT-5.4ナノの予測は、Qwen3-8BとKim K2.6スコアラーの両方の文脈制御におけるクリップされた可能性を改善し、モデルファミリと人間のラベルなしでの推論と快適な設定を区別した。
有用な予測を行うのではなく、さらに$Z$でスコアラーを素数化するショートカットをエミュレートするために、コンテキストのみのプロンプトでスコアラーを微調整し、ホールドアウト紙にそれをより強力な制御として適用する。
GPT-5.5の予測は依然としてこの微調整された制御に勝っているが、GPT-5.4のナノ予測はそうではない。
より長い散文/TeX連続は、目標の開始付近に集中して、肯定的ではあるがノイズの多い昇降制御を示す。
これらの結果は、静的なベンチマークとして、および強化学習やモデル選択最適化を適用する前に、ショートカット脆弱性を探索するための設定として、クロスモデル確率スコアリングをサポートする。
関連論文リスト
- Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents [0.0]
自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
論文 参考訳(メタデータ) (2026-04-27T16:46:15Z) - Natural Language Edge Labelling: Decoupling Intent from Execution in Structured LM Reasoning [0.0]
本稿では,各検索エッジに自由形式の自然言語ディレクティブを付加するラベルラタオーバーレイであるNature Language Edge Labelling (NLEL)を紹介する。
NLEL は CoT/ToT を厳密に一般化し、ラベル付きバンドルの下でのトップ$k$選択の時空単調性を証明し、制御ベクトル歪みによりセレクタ不足を限定する。
論文 参考訳(メタデータ) (2025-10-06T14:00:02Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Reliability, Embeddedness, and Agency: A Utility-Driven Mathematical Framework for Agent-Centric AI Adoption [0.0]
我々は,マルチステップタスクを実行するエージェント中心のAIシステムの採用を継続するための3つの公理を定式化する。
我々は、崩壊するノベルティ用語と成長するユーティリティ用語の和として、採用をモデル化する。
論文 参考訳(メタデータ) (2025-08-18T12:53:38Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis [84.57932472551889]
RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを、それぞれ5.6%$(リランクなし)から2.5%$と1.0%$に改善した。
論文 参考訳(メタデータ) (2024-04-04T05:15:07Z) - Conformal Nucleus Sampling [67.5232384936661]
最上位のp$集合が、様々な言語文脈における確率的意味と実際に一致しているかを評価する。
OPTモデルは過信であり、キャリブレーションはモデルサイズで適度な逆スケーリングを示す。
論文 参考訳(メタデータ) (2023-05-04T08:11:57Z) - Almost Tight L0-norm Certified Robustness of Top-k Predictions against
Adversarial Perturbations [78.23408201652984]
トップk予測は、マシンラーニング・アズ・ア・サービス、レコメンダ・システム、Web検索など、多くの現実世界のアプリケーションで使用されている。
我々の研究はランダム化平滑化に基づいており、入力をランダム化することで、証明可能なロバストな分類器を構築する。
例えば、攻撃者がテスト画像の5ピクセルを任意に摂動できる場合に、ImageNet上で69.2%の認定トップ3精度を達成する分類器を構築することができる。
論文 参考訳(メタデータ) (2020-11-15T21:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。