論文の概要: Screen Before You Interpret: A Portable Validity Protocol for Benchmark-Based LLM Confidence Signals
- arxiv url: http://arxiv.org/abs/2604.17714v1
- Date: Mon, 20 Apr 2026 01:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.655267
- Title: Screen Before You Interpret: A Portable Validity Protocol for Benchmark-Based LLM Confidence Signals
- Title(参考訳): 解釈前の画面:ベンチマークベースのLLM信頼信号のためのポータブルな検証プロトコル
- Authors: Jon-Paul Cacioli,
- Abstract要約: LLM信頼信号は、棄権、ルーティング、安全クリティカルな決定に使用される。
信頼信号が構築前にアイテムレベルの情報を伝達するかどうかを確認するための標準的な慣行は存在しない。
LLM信頼性データに対する可搬性プロトコルとして,臨床人格評価(PAI,MMPI-3)から妥当性スクリーニングの原則を転送する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM confidence signals are used for abstention, routing, and safety-critical decisions. No standard practice exists for checking whether a confidence signal carries item-level information before building on it. We transfer the validity screening principle from clinical personality assessment (PAI, MMPI-3) as a portable protocol for benchmark-based LLM confidence data. The protocol specifies three core indices (L, Fp, RBS), a structural indicator (TRIN), and an item-sensitivity statistic, computed from a single 2x2 contingency table. A three-tier classification system (Invalid, Indeterminate, Valid) draws on four clinical traditions. Validated on 20 frontier LLMs across 524 items, four models are classified Invalid, two Indeterminate. Valid-profile models show mean r = .18 (15/16 significant). Invalid-profile models show mean r = -.20 (d = 2.48). Cross-benchmark validation on 18 models using MMLU with verbalized confidence and on external data from Yang et al. (2024) confirms the screen transfers across benchmarks and probe formats. All data and code: https://github.com/synthiumjp/validity-scaling-llm
- Abstract(参考訳): LLM信頼信号は、棄権、ルーティング、安全クリティカルな決定に使用される。
信頼信号が構築前にアイテムレベルの情報を伝達するかどうかを確認するための標準的な慣行は存在しない。
LLM信頼性データに対する可搬性プロトコルとして,臨床人格評価(PAI,MMPI-3)から妥当性スクリーニングの原則を転送する。
このプロトコルは、単一の2x2整合テーブルから計算される3つのコア指標(L、Fp、RBS)、構造指標(TRIN)、およびアイテム感度統計を規定する。
3段階の分類体系(Invalid、Indeterminate、Valid)は4つの臨床の伝統に基づいている。
524項目にわたる20のフロンティアLLMで検証され、4つのモデルがInvalid、2つのIndeterminateに分類される。
正当性を示すモデルは、r = .18 (15/16 有意) を意味する。
無効なモデルは、平均 r = -.20 (d = 2.48) を示す。
MMLUとYang et al (2024)の外部データを用いた18モデルのクロスベンチマーク検証では、ベンチマークやプローブフォーマット間の画面転送を確認している。
すべてのデータとコード:https://github.com/synthiumjp/validity-scaling-llm
関連論文リスト
- Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report [0.0]
PAIとMMPI-3からメタ認知プローブデータに適用する。
6つの妥当性指標が運用されている: L(エラーに対する信頼を維持する)、K(エラーに賭ける)、F(コンセンサスに適合した項目を引き出す)、Fp(正しい回答を引き出す)、RBS(逆モニタリング)、TRIN。
論文 参考訳(メタデータ) (2026-04-20T01:42:54Z) - NANOZK: Layerwise Zero-Knowledge Proofs for Verifiable Large Language Model Inference [0.0]
LLM推論を検証可能なゼロ知識証明システムであるメソッドを提案する。
我々のアプローチは、トランスフォーマー推論が自然に独立した層計算に分解されるという事実を生かしている。
EZKLと比較して、EZKLは70倍小さい証明と5.7倍速い証明時間をd=128で達成し、形式的な音質保証を維持している。
論文 参考訳(メタデータ) (2026-03-17T04:14:45Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - Trustworthiness Calibration Framework for Phishing Email Detection Using Large Language Models [0.0]
GPT-4やLLaMA-3-8Bのような大規模言語モデル(LLM)は、テキスト分類において高い精度を達成する。
本研究では,フィッシング検知器の再現性評価手法であるTCFを紹介した。
論文 参考訳(メタデータ) (2025-11-06T18:14:44Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - MedOmni-45°: A Safety-Performance Benchmark for Reasoning-Oriented LLMs in Medicine [69.08855631283829]
我々は,操作的ヒント条件下での安全性能トレードオフの定量化を目的としたベンチマークであるMed Omni-45 Degreesを紹介する。
6つの専門分野にまたがる1,804の推論に焦点を当てた医療質問と3つのタスクタイプが含まれており、その中にはMedMCQAの500が含まれる。
結果は、モデルが対角線を超えることなく、一貫した安全性と性能のトレードオフを示す。
論文 参考訳(メタデータ) (2025-08-22T08:38:16Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。