論文の概要: CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
- arxiv url: http://arxiv.org/abs/2602.02515v2
- Date: Wed, 04 Feb 2026 11:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.426604
- Title: CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
- Title(参考訳): CreditAudit: 2$^\text{nd}$ Dimension for LLM Evaluation and Selection
- Authors: Yiliang Song, Hongjun An, Jiangong Xiao, Haofei Zhao, Jiawei Shao, Xuelong Li,
- Abstract要約: CreditAuditはデプロイ指向の信用監査フレームワークで、セマンティックアライメントと非敵対的なシステムプロンプトテンプレートのファミリ下でモデルを評価する。
同様の平均能力を持つモデルは、かなり異なる変動を示し、安定リスクは、エージェントまたは高失敗コストの制度における優先順位決定を覆す可能性があることを示す。
- 参考スコア(独自算出の注目度): 44.251742023911135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leaderboard scores on public benchmarks have been steadily rising and converging, with many frontier language models now separated by only marginal differences. However, these scores often fail to match users' day to day experience, because system prompts, output protocols, and interaction modes evolve under routine iteration, and in agentic multi step pipelines small protocol shifts can trigger disproportionate failures, leaving practitioners uncertain about which model to deploy. We propose CreditAudit, a deployment oriented credit audit framework that evaluates models under a family of semantically aligned and non adversarial system prompt templates across multiple benchmarks, reporting mean ability as average performance across scenarios and scenario induced fluctuation sigma as a stability risk signal, and further mapping volatility into interpretable credit grades from AAA to BBB via cross model quantiles with diagnostics that mitigate template difficulty drift. Controlled experiments on GPQA, TruthfulQA, and MMLU Pro show that models with similar mean ability can exhibit substantially different fluctuation, and stability risk can overturn prioritization decisions in agentic or high failure cost regimes. By providing a 2D and grade based language for regime specific selection, CreditAudit supports tiered deployment and more disciplined allocation of testing and monitoring effort, enabling more objective and trustworthy model evaluation for real world use.
- Abstract(参考訳): 公開ベンチマークのリーダーシップスコアは着実に上昇し、収束しており、多くのフロンティア言語モデルは現在、限界差のみによって分離されている。
しかしながら、これらのスコアは、システムのプロンプト、出力プロトコル、インタラクションモードが定期的なイテレーションで進化するため、ユーザの日々の経験と一致しないことが多い。
提案するCreditAuditは,複数のベンチマークにまたがって,セマンティック・アライメントと非敵対的システムによるモデル評価を行う,デプロイ指向の信用監査フレームワークである。また,シナリオ間の平均性能とシナリオによる変動シグマを安定性リスク信号として報告し,さらに変動度をAAAからBBBへの解釈可能なクレジットグレードにマッピングし,テンプレートの難易度を緩和する診断を行う。
GPQA, TruthfulQA, MMLU Proの制御された実験により, 同様の平均能力を持つモデルは, かなり異なる変動を示し, 安定リスクは, エージェント的あるいは高障害コストなシステムにおける優先順位決定を覆す可能性があることが示された。
システム固有の選択のための2Dおよびグレードベースの言語を提供することで、CreditAuditは、より密着したデプロイメントと、テストと監視の厳格なアロケーションをサポートし、現実世界の使用に対してより客観的で信頼性の高いモデル評価を可能にする。
関連論文リスト
- D-Models and E-Models: Diversity-Stability Trade-offs in the Sampling Behavior of Large Language Models [91.21455683212224]
大規模言語モデル(LLMs)では、次の情報の関連性確率は、次の製品の関連性確率に関連付けられる。
しかし、きめ細かいサンプリング確率がタスク要求に忠実に適合するかどうかは未解決の問題だ。
P_tokenが大きなステップ・ツー・ステップの変動を示し、P_taskとの整合性が低いDモデルと、P_tokenがより安定してP_taskに整合するEモデルである。
論文 参考訳(メタデータ) (2026-01-25T14:59:09Z) - Multi-Layer Confidence Scoring for Detection of Out-of-Distribution Samples, Adversarial Attacks, and In-Distribution Misclassifications [2.4219039094115034]
我々は,Multi-Layer Analysis for Confidence Scoring (MACS)を紹介する。
我々は、信頼度推定、分布シフトの検出、敵攻撃に当てはまるスコアを導出する。
VGG16 と ViTb16 モデルを用いた実験では,最先端のアプローチを超越した性能を実現している。
論文 参考訳(メタデータ) (2025-12-22T15:25:10Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - Merge and Guide: Unifying Model Merging and Guided Decoding for Controllable Multi-Objective Generation [49.98025799046136]
Merge-And-GuidEは、ガイド付きデコーディングにモデルマージを利用する2段階のフレームワークである。
ステージ1では、MAGEはガイダンスとベースモデルの互換性の問題を解決する。
ステージ2では、明示的で暗黙的な値モデルを統一的なガイダンスプロキシにマージします。
論文 参考訳(メタデータ) (2025-10-04T11:10:07Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。