Fugu-MT 論文翻訳(概要): Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report

論文の概要: Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report

arxiv url: http://arxiv.org/abs/2604.17707v1
Date: Mon, 20 Apr 2026 01:42:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.649496
Title: Before You Interpret the Profile: Validity Scaling for LLM Metacognitive Self-Report
Title（参考訳）: プロフィールを解釈する前に: LLMメタ認知自己報告のための妥当性スケーリング
Authors: Jon-Paul Cacioli,
Abstract要約: PAIとMMPI-3からメタ認知プローブデータに適用する。 6つの妥当性指標が運用されている: L(エラーに対する信頼を維持する)、K(エラーに賭ける)、F(コンセンサスに適合した項目を引き出す)、Fp(正しい回答を引き出す)、RBS(逆モニタリング)、TRIN。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clinical personality assessment screens response validity before interpreting substantive scales. LLM evaluation does not. We apply the validity scaling framework from the PAI and MMPI-3 to metacognitive probe data from 20 frontier models across 524 items. Six validity indices are operationalised: L (maintaining confidence on errors), K (betting on errors), F (withdrawing consensus-endorsed items), Fp (withdrawing correct answers), RBS (inverted monitoring), and TRIN (fixed responding). A tiered classification system identifies four models as construct-level invalid and two as elevated. Valid-profile models produce item-sensitive confidence (mean r = .18, 14 of 16 significant). Invalid-profile models do not (mean r = -.20, d = 2.17, p = .001). Chain-of-thought training produces two opposite response distortions. Two latent dimensions account for 94.6% of index variance. Companion papers extract a portable screening protocol (Cacioli, 2026e) and validate it against selective prediction (Cacioli, 2026f). All data and code: https://github.com/synthiumjp/validity-scaling-llm
Abstract（参考訳）: 臨床パーソナリティ評価は、実体尺度を解釈する前に応答妥当性を検査する。 LLM評価は行わない。 PAIとMMPI-3の妥当性拡張フレームワークを524項目にわたる20のフロンティアモデルからメタ認知プローブデータに適用する。 6つの妥当性指標が運用されている: L (エラーに対する信頼を維持する)、K (エラーに賭ける)、F (コンセンサスに適合した項目を引き出す)、Fp (正しい回答を引き出す)、RBS (逆モニタリング)、TRIN (修正対応)。階層分類システムでは、4つのモデルが構成レベルを無効にし、2つが上位に指定される。正当性を示すモデルはアイテムに敏感な信頼を生み出す(すなわち16のうち、r = .18, 14)。無効なモデルはそうではない(平均 r = -.20, d = 2.17, p = .001)。連鎖学習は2つの反対の反応歪みを生み出す。 2つの潜在次元は指数分散の94.6%を占める。コンパニオン紙はポータブルスクリーニングプロトコル(Cacioli, 2026e)を抽出し、選択予測(Cacioli, 2026f)に対して検証する。すべてのデータとコード:https://github.com/synthiumjp/validity-scaling-llm

関連論文リスト

Concurrent Criterion Validation of a Validity Screen for LLM Confidence Signals via Selective Prediction [0.0]
妥当性画面は、LDM信頼信号をValid、Indeterminate、Invalidに分類する。認知的軌跡の524項目において,7家系の20のフロンティアLSMを評価した。 Split-halfクロスバリデーションは、中央値d = 1.77, P(d > 0) = 1.0を1000個の分割で生成する。
論文参考訳（メタデータ） (2026-04-20T01:56:29Z)
Screen Before You Interpret: A Portable Validity Protocol for Benchmark-Based LLM Confidence Signals [0.0]
LLM信頼信号は、棄権、ルーティング、安全クリティカルな決定に使用される。信頼信号が構築前にアイテムレベルの情報を伝達するかどうかを確認するための標準的な慣行は存在しない。 LLM信頼性データに対する可搬性プロトコルとして,臨床人格評価(PAI,MMPI-3)から妥当性スクリーニングの原則を転送する。
論文参考訳（メタデータ） (2026-04-20T01:50:38Z)
The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring [0.0]
本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング制御結合のドメイン間挙動測定を紹介する。電池依存キャリブレーションは、単調低下(Q)、単調上昇(GPT-5.4)、平(Gemma)を含む。発見は、独立なType-2 SDTアプローチと構造的に収束し、予備的なクロスメタルキャリブレーションを提供する。
論文参考訳（メタデータ） (2026-04-17T05:15:15Z)
How Independent are Large Language Models? A Statistical Framework for Auditing Behavioral Entanglement and Reweighting Verifier Ensembles [46.63622714488747]
共有事前学習データ、蒸留、アライメントパイプラインは、隠れた振る舞い依存、潜伏絡みを誘導することができる。実際には、これは相関した推論パターンと同期された障害として現れます。ブラックボックス言語モデル間の行動絡みを監査するための統計的枠組みを開発する。
論文参考訳（メタデータ） (2026-04-08T23:32:06Z)
NANOZK: Layerwise Zero-Knowledge Proofs for Verifiable Large Language Model Inference [0.0]
LLM推論を検証可能なゼロ知識証明システムであるメソッドを提案する。我々のアプローチは、トランスフォーマー推論が自然に独立した層計算に分解されるという事実を生かしている。 EZKLと比較して、EZKLは70倍小さい証明と5.7倍速い証明時間をd=128で達成し、形式的な音質保証を維持している。
論文参考訳（メタデータ） (2026-03-17T04:14:45Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。 FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。 Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文参考訳（メタデータ） (2023-10-18T16:27:49Z)
ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文参考訳（メタデータ） (2022-05-21T11:52:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。