論文の概要: Targeted Tests for LLM Reasoning: An Audit-Constrained Protocol
- arxiv url: http://arxiv.org/abs/2605.11599v2
- Date: Sun, 17 May 2026 07:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.691492
- Title: Targeted Tests for LLM Reasoning: An Audit-Constrained Protocol
- Title(参考訳): LLM推論のためのターゲットテスト:監査制約付きプロトコル
- Authors: Hongmin Li,
- Abstract要約: 対象推論評価のための監査制約付きプロトコルを提案する。
楽譜に基づく決定型サンプリングであるCAPS(Component Prompt Smpling)をプロンプトコンポーネント上でインスタンス化し、等予算の均一なコンポーネントサンプリングと比較する。
- 参考スコア(独自算出の注目度): 0.9805949492148788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fixed reasoning benchmarks evaluate canonical prompts, but semantically valid changes in presentation can still change model behavior. Studies of prompt variation can reveal such failures, but without audit they can mix genuine model errors with invalid perturbations, extraction artifacts, and unmatched search procedures. We propose an audit-constrained protocol for targeted reasoning evaluation. Prompt variants are generated from a finite component grammar, rendered deterministically, evaluated under a fixed query budget, and counted as model errors only after semantic and extraction audit. Within this protocol we instantiate Component-Adaptive Prompt Sampling (CAPS), a score-based sampler over prompt components, and compare it with equal-budget uniform component sampling under the same task bank, renderer, model interface, decoding settings, and audit procedure. Across three audited slices, the protocol identifies confirmed model-error prompt keys while excluding formatting and extraction artifacts, but matched comparisons do not show that CAPS improves audited yield or unique prompt-key discovery over uniform sampling. The contribution is methodological: targeted prompt variation can be studied under a reconstructable, reviewable, budget-matched protocol, and proxy-guided policies should be judged by audited yield rather than raw mismatch counts or selected examples alone.
- Abstract(参考訳): 固定推論ベンチマークは標準的プロンプトを評価するが、プレゼンテーションにおける意味論的に有効な変更はモデル動作を変える可能性がある。
即時変動の研究はそのような失敗を明らかにすることができるが、監査なしでは、真のモデルエラーを不正な摂動、抽出アーティファクト、未整合の探索手順と組み合わせることができる。
対象推論評価のための監査制約付きプロトコルを提案する。
プロンプト変種は有限成分文法から生成され、決定論的に描画され、固定されたクエリ予算の下で評価され、意味と抽出監査後にのみモデルエラーとしてカウントされる。
このプロトコルでは、プロンプトコンポーネントに対するスコアベースのサンプリングであるCAPS(Component-Adaptive Prompt Smpling)をインスタンス化し、同じタスクバンク、レンダラー、モデルインターフェース、デコード設定、監査手順の下で、等予算の均一なコンポーネントサンプリングと比較します。
3つの監査済みスライスで、このプロトコルは、フォーマットや抽出アーティファクトを除外しながら、確認されたモデルエラープロンプトキーを識別するが、一致した比較は、CAPSが一様サンプリングよりも監査された収率やユニークなプロンプトキー発見を改善することを示さない。
対象のプロンプト変動は、再構成可能で、レビュー可能で、予算が整ったプロトコルの下で研究でき、プロキシ誘導されたポリシーは、生のミスマッチ数や選択された例ではなく、監査された収量によって判断されるべきである。
関連論文リスト
- CITE: Anytime-Valid Statistical Inference in LLM Self-Consistency [10.34950275095264]
本研究では,モデル応答分布の特異なモードとして,あらかじめ指定した対象解の任意の正当性検証について検討する。
本稿では,任意の所定のレベルで偽認証を確実に制御するCITEアルゴリズムを用いた区間統一試験による認証を提案する。
また、カテゴリセットなしの停止時間率を証明し、メインレジーム内の定数に一致するミニマックスの下限を確立し、信頼度の高い投票に拡張する。
論文 参考訳(メタデータ) (2026-05-07T08:41:51Z) - Making AI-Assisted Grant Evaluation Auditable without Exposing the Model [0.0]
本稿では,遠隔検定による要求の整合を支援するTEEアーキテクチャを提案する。
このアーキテクチャにより、外部検証者はどのモデル、ルーブリック、プロンプトテンプレート、入力表現が使われたかをチェックすることができる。
我々は、秘密のAI推論、証明可能なAI監査、ゼロ知識機械学習、アルゴリズムのアカウンタビリティ、AI支援ピアレビューに対する設計を位置付ける。
論文 参考訳(メタデータ) (2026-04-28T04:10:04Z) - Sequential Audit Sampling with Statistical Guarantees [6.101839518775968]
本研究は, 有限個体群を対象とした逐次的な検査問題として, 追加の逐次収集項目を用いた監査サンプリングを定式化した。
偏差率でヌル仮説と代替仮説を定義し、停止規則と決定規則を定め、有限人口誤差確率で正確な逐次境界条件を定式化する。
正確な設計は、決定エラー確率を極端に制御し、シミュレーションベースの実装は、期待される停止時間の計算を可能にしながら、その設計を近似する。
論文 参考訳(メタデータ) (2026-04-07T17:26:23Z) - K$α$LOS finds Consensus: A Meta-Algorithm for Evaluating Inter-Annotator Agreement in Complex Vision Tasks [4.297070083645049]
本稿では,「ローカライゼーションファースト」の原理を一般化した統一メタアルゴリズムであるK$LOSを提案する。
合意を査定する前に空間対応を解消することにより,複雑な分類問題を名目上の信頼性に変換する。
論文 参考訳(メタデータ) (2026-03-28T08:54:05Z) - Towards Verifiable AI with Lightweight Cryptographic Proofs of Inference [3.3323431541048385]
完全証明を軽量なサンプリングベースアプローチで置き換える検証フレームワークとプロトコルを提案する。
我々は,機能的に異なるモデル間のトレース分離を活用可能な条件を定式化し,検証可能な推論プロトコルの安全性について議論する。
我々の手法は、最先端の暗号証明システムと比較して、証明時間を桁違いに削減する。
論文 参考訳(メタデータ) (2026-03-19T15:24:27Z) - PaperAudit-Bench: Benchmarking Error Detection in Research Papers for Critical Automated Peer Review [54.141490756509306]
本稿では、エラーデータセットであるPaperAudit-Datasetと、自動レビューフレームワークであるPaperAudit-Reviewの2つのコンポーネントからなるPaperAudit-Benchを紹介する。
PaperAudit-Benchの実験では、モデルと検出深さの誤差検出可能性に大きなばらつきが示された。
本研究では,SFTおよびRLによる軽量LLM検出器のトレーニングをサポートし,計算コストの削減による効率的な誤り検出を実現する。
論文 参考訳(メタデータ) (2026-01-07T04:26:12Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Appeal: Allow Mislabeled Samples the Chance to be Rectified in Partial Label Learning [55.4510979153023]
部分ラベル学習(PLL)では、各インスタンスは候補ラベルのセットに関連付けられ、そのうち1つだけが接地真実である。
誤記されたサンプルの「アペアル」を支援するため,最初の魅力に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T09:09:52Z) - Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。