論文の概要: MicroProbe: Efficient Reliability Assessment for Foundation Models with Minimal Data
- arxiv url: http://arxiv.org/abs/2512.20630v1
- Date: Sun, 30 Nov 2025 13:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.09738
- Title: MicroProbe: Efficient Reliability Assessment for Foundation Models with Minimal Data
- Title(参考訳): MicroProbe: 最小データによる基礎モデルの信頼性評価
- Authors: Aayam Bansal, Ishaan Gangwani,
- Abstract要約: マイクロプローブは、戦略的に選択された100個のプローブ例のみを用いて、総合的な信頼性評価を行う。
マイクロプローブは, ランダムサンプリングベースラインに比べて23.5%高い信頼性を示す。
マイクロプローブは、信頼性評価を99.9%の統計力で完了し、評価コストの90%を削減し、従来の方法カバレッジの95%を維持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation model reliability assessment typically requires thousands of evaluation examples, making it computationally expensive and time-consuming for real-world deployment. We introduce microprobe, a novel approach that achieves comprehensive reliability assessment using only 100 strategically selected probe examples. Our method combines strategic prompt diversity across five key reliability dimensions with advanced uncertainty quantification and adaptive weighting to efficiently detect potential failure modes. Through extensive empirical evaluation on multiple language models (GPT-2 variants, GPT-2 Medium, GPT-2 Large) and cross-domain validation (healthcare, finance, legal), we demonstrate that microprobe achieves 23.5% higher composite reliability scores compared to random sampling baselines, with exceptional statistical significance (p < 0.001, Cohen's d = 1.21). Expert validation by three AI safety researchers confirms the effectiveness of our strategic selection, rating our approach 4.14/5.0 versus 3.14/5.0 for random selection. microprobe completes reliability assessment with 99.9% statistical power while representing a 90% reduction in assessment cost and maintaining 95% of traditional method coverage. Our approach addresses a critical gap in efficient model evaluation for responsible AI deployment.
- Abstract(参考訳): ファンデーションモデルの信頼性評価は通常、何千もの評価例を必要とする。
戦略的に選択された100個のプローブ例のみを用いて総合的な信頼性評価を実現する新しいアプローチであるmicroprobeを導入する。
提案手法は,5つの重要な信頼性次元にまたがる戦略的急激な多様性と高度な不確実性定量化と適応重み付けを組み合わせることで,潜在的な故障モードを効率的に検出する。
多言語モデル(GPT-2変種、GPT-2中型、GPT-2大型)とクロスドメイン検証(医療、金融、法律)の広範な経験的評価を通じて、マイクロプローブは、ランダムサンプリングベースラインに比べて23.5%高い合成信頼性スコアを達成し、例外的な統計的意義(p < 0.001, Cohen's d = 1.21)を持つことを示した。
3人のAI安全研究者による専門家による検証は、我々の戦略選択の有効性を確認し、我々のアプローチ4.14/5.0に対してランダム選択3.14/5.0を評価する。
マイクロプローブは、信頼性評価を99.9%の統計力で完了し、評価コストの90%を削減し、従来の方法カバレッジの95%を維持する。
我々のアプローチは、責任あるAIデプロイメントのための効率的なモデル評価における重要なギャップに対処する。
関連論文リスト
- Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文 参考訳(メタデータ) (2024-11-20T10:41:23Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。