論文の概要: NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles
- arxiv url: http://arxiv.org/abs/2605.01847v1
- Date: Sun, 03 May 2026 12:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.962959
- Title: NeuroState-Bench: A Human-Calibrated Benchmark for Commitment Integrity in LLM Agent Profiles
- Title(参考訳): NeuroState-Bench: LLMエージェントプロファイルにおけるコミットインテリジェンスのためのヒューマンキャリブレーションベンチマーク
- Authors: Jia Xiao,
- Abstract要約: NeuroState-Benchは、ベンチマーク定義のサイドクエリープローブを通じてコミットメントの整合性を運用する、人間の校正ベンチマークである。
主な32点評価は、固定された16点のローカルサブセットと、同一のベンチマークパイプラインで評価された16点のホストされた大型モデルサブセットを含む。
経験的に、タスクの成功とコミットメントの整合性は、この拡張されたグリッドに分散します。
- 参考スコア(独自算出の注目度): 0.4512372501420207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outcome-only evaluation under-specifies whether an evaluated agent profile preserves the commitments required to solve a multi-turn task coherently. NeuroState-Bench is a human-calibrated benchmark that operationalizes commitment integrity through benchmark-defined side-query probes rather than inferred hidden activations. The released inventory contains 144 deterministic tasks and 306 benchmark-defined side-query probes spanning eight cognitively motivated failure families, paired clean and distractor variants, and three difficulty bands. The main 32-profile evaluation contains a fixed 16-profile local subset and a matched 16-profile hosted large-model subset evaluated through the same benchmark pipeline. Human calibration uses the final merged reporting scope: 104 sampled task units, 216 raw annotations, and 108 adjudicated task rows, with weighted kappa = 0.977 and ICC(2,1) = 0.977. Empirically, task success and commitment integrity diverge across this expanded grid: the success leader is not the integrity leader, 31 of 32 profiles change rank when integrity replaces task success, and integrity rankings are more stable under distractor perturbation. The primary confidence-free score HCCIS-CORE reaches 0.8469 AUC and 0.6992 PR-AUC for post-probe diagnostic discrimination of terminal task failure; the legacy full heuristic variant HCCIS-FULL reaches 0.7997 AUC and 0.6410 PR-AUC. Probe accuracy and state drift achieve slightly higher ROC-AUC, 0.8587, and better Brier/ECE, while HCCIS-CORE has substantially higher point-estimate PR-AUC and remains more closely tied to the benchmark's intended construct. The exploratory neural-augmented variant HCCIS+N is weaker overall, and a randomized subspace control approaches chance. NeuroState-Bench therefore contributes a calibrated evaluation axis for exposing commitment failures over a broader model grid than the original local-only subset.
- Abstract(参考訳): 結果のみの評価は、評価されたエージェントプロファイルがマルチターンタスクのコヒーレントな解決に必要なコミットメントを保存するかどうかを規定する。
NeuroState-Benchは、隠れたアクティベーションを推測するのではなく、ベンチマーク定義のサイドクエリープローブを通じてコミットメントの整合性を運用する人間校正ベンチマークである。
リリースされたインベントリには、144の決定論的タスクと306のベンチマークで定義されたサイドクエリープローブが含まれており、8つの認知的なモチベーションを持つ障害ファミリー、ペアのクリーンとイントラクタのバリエーション、そして3つの困難バンドで構成されている。
主な32点評価は、固定された16点のローカルサブセットと、同一のベンチマークパイプラインで評価された16点のホストされた大型モデルサブセットを含む。
104のサンプル化されたタスクユニット、216の生のアノテーション、108の調整されたタスク行で、加重されたkappa = 0.977とICC(2,1) = 0.977である。
経験的に、タスクの成功とコミットメントの整合性は、この拡張されたグリッドに分散している。成功リーダは、整合性リーダーではない。
HCCIS-CORE は0.8469 AUC と 0.6992 PR-AUC に到達し、終末タスク障害の診断後診断が可能となり、旧来のフルヒューリスティック変種 HCCIS-FULL は0.7997 AUC と 0.6410 PR-AUC に到達した。
精度と状態のドリフトは、ROC-AUC、0.8587、より優れたブライア/ECEを達成する一方、CCIS-COREは、かなり高い点推定PR-AUCを持ち、ベンチマークの意図した構成と密接に結びついている。
探索的神経増強型HCCIS+Nは全体として弱く、ランダム化されたサブスペース制御がチャンスに近づいた。
それゆえ、NeuroState-Benchは、元のローカルのみのサブセットよりも広いモデルグリッド上でのコミットメントの失敗を露呈するための、キャリブレーションされた評価軸に寄与する。
関連論文リスト
- CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation [0.0]
CADMAS-CTXはコンテキストキャリブレーションのためのフレームワークである。
階層的なコンテキスト能力プロファイルは、静的なスキルレベルの信頼性をコンテキスト条件の後方に置き換える。
GAIAとSWE-benchベンチマークを用いて,本手法の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2026-04-20T08:30:28Z) - Beyond Completion: Probing Cumulative State Tracking to Predict LLM Agent Performance [9.771590610969918]
WMF-AM(Working Memory Fidelity-Active Manipulation)を紹介する。
その結果,20種類のオープンウェイトモデル (0.5B-35B, 13ファミリー) で10タスク・エージェント・バッテリを発売した。
論文 参考訳(メタデータ) (2026-03-28T17:25:11Z) - Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。
我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文 参考訳(メタデータ) (2026-03-16T17:37:17Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Enhancing Multi-Label Thoracic Disease Diagnosis with Deep Ensemble-Based Uncertainty Quantification [1.2461503242570642]
このプロジェクトは、堅牢な不確実性定量化(UQ)を、NIH ChestX-ray14データセット上の14の一般的な胸部疾患のための高性能な診断プラットフォームに統合する。
初期のアーキテクチャ開発ではモンテカルロ・ドロップアウト(MCD)を使用した性能とキャリブレーションが安定せず、ECEは0.7588であった。
この結果、Deep Ensemble (DE) は性能を安定させ、信頼性を向上し、受信器操作特性曲線 (AUROC) 平均面積 0.8559 と F1スコア 0.3857 を達成した。
論文 参考訳(メタデータ) (2025-11-24T07:20:40Z) - Optimizing Chain-of-Thought Confidence via Topological and Dirichlet Risk Analysis [3.4324137096523746]
チェーン・オブ・シークレットのプロンプトにより、大規模言語モデルは複雑な問題を解決することができる。
既存の手法では、誤った予測に対するキャリブレーションの低下と深刻な過信に悩まされている。
複数の推論経路にまたがる信頼度を測定するために,拡張ディリクレ・トポロジーリスク(EDTR)を提案する。
論文 参考訳(メタデータ) (2025-11-09T16:09:02Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。