論文の概要: ProbeLLM: Automating Principled Diagnosis of LLM Failures
- arxiv url: http://arxiv.org/abs/2602.12966v1
- Date: Fri, 13 Feb 2026 14:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.982678
- Title: ProbeLLM: Automating Principled Diagnosis of LLM Failures
- Title(参考訳): ProbeLLM: LLM障害の原則診断を自動化する
- Authors: Yue Huang, Zhengzhe Jiang, Yuchen Ma, Yu Jiang, Xiangqi Wang, Yujun Zhou, Yuexing Hao, Kehan Guo, Pin-Yu Chen, Stefan Feuerriegel, Xiangliang Zhang,
- Abstract要約: ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
- 参考スコア(独自算出の注目度): 89.44131968886184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how and why large language models (LLMs) fail is becoming a central challenge as models rapidly evolve and static evaluations fall behind. While automated probing has been enabled by dynamic test generation, existing approaches often discover isolated failure cases, lack principled control over exploration, and provide limited insight into the underlying structure of model weaknesses. We propose ProbeLLM, a benchmark-agnostic automated probing framework that elevates weakness discovery from individual failures to structured failure modes. ProbeLLM formulates probing as a hierarchical Monte Carlo Tree Search, explicitly allocating limited probing budgets between global exploration of new failure regions and local refinement of recurring error patterns. By restricting probing to verifiable test cases and leveraging tool-augmented generation and verification, ProbeLLM grounds failure discovery in reliable evidence. Discovered failures are further consolidated into interpretable failure modes via failure-aware embeddings and boundary-aware induction. Across diverse benchmarks and LLMs, ProbeLLM reveals substantially broader, cleaner, and more fine-grained failure landscapes than static benchmarks and prior automated methods, supporting a shift from case-centric evaluation toward principled weakness discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)の失敗の理由と理由を理解することは、モデルが急速に進化し、静的評価が遅れるにつれて、中心的な課題になりつつある。
自動プローブは動的テスト生成によって実現されているが、既存のアプローチでは、しばしば分離された障害ケースを発見し、探索に対する原則的な制御が欠如し、モデル弱点の基盤構造に関する限られた洞察を提供する。
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは階層的なモンテカルロ木探索として探索し、新しい障害領域のグローバルな探索と繰り返し発生するエラーパターンの局所的な改善の間に限定的な探索予算を明示的に割り当てる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
発見された障害は、フェールアウェアの埋め込みとバウンダリアウェアの誘導を通じて、解釈可能な障害モードにさらに統合される。
さまざまなベンチマークとLLMにわたって、ProbeLLMは、静的ベンチマークや以前の自動メソッドよりもはるかに広く、よりクリーンで、よりきめ細かな障害状況を明らかにし、ケース中心の評価から原則化された弱点発見への移行をサポートする。
関連論文リスト
- Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - When One Modality Sabotages the Others: A Diagnostic Lens on Multimodal Reasoning [22.39245479538899]
本報告では,高信頼な一元誤差が他の証拠をオーバーライドし,融合結果を誤認する診断障害モードであるモダリティ・サボタージュを導入する。
モデル非依存評価層は、各モダリティをエージェントとして扱い、候補ラベルと監査に用いる簡単な自己評価を生成する。
単純な融合機構はこれらの出力を集約し、コントリビュータ(正しい結果を支持するモダリティ)とサボツール(誤解を招くモダリティ)を露呈する。
論文 参考訳(メタデータ) (2025-11-04T18:20:13Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - Degradation Modeling and Prognostic Analysis Under Unknown Failure Modes [17.72961616186932]
操作ユニットは複雑なシステムで様々な障害モードを経験します。
現在の予測的アプローチは、劣化中の障害モードを無視したり、既知の障害モードラベルを仮定する。
センサ信号の高次元性と複雑な関係は、故障モードを正確に識別することが困難である。
論文 参考訳(メタデータ) (2024-02-29T15:57:09Z) - PAGER: A Framework for Failure Analysis of Deep Regression Models [27.80057763697904]
PAGER (Principled Analysis of Generalization Errors in Regressors) は,深部回帰器の故障を系統的に検出し,特徴付けるフレームワークである。
深層モデルにおけるアンカードトレーニングの原理に基づいて、PAGERは、エピステマ性不確実性と相補的多様体の非整合スコアを統一し、サンプルを異なるリスクレジームに正確に整理する。
論文 参考訳(メタデータ) (2023-09-20T00:37:35Z) - LafitE: Latent Diffusion Model with Feature Editing for Unsupervised
Multi-class Anomaly Detection [12.596635603629725]
我々は,通常のデータのみにアクセス可能な場合に,複数のクラスに属するオブジェクトから異常を検出する統一モデルを開発した。
まず、生成的アプローチについて検討し、再構成のための潜伏拡散モデルについて検討する。
「拡散モデルの入力特徴空間を修正し、アイデンティティショートカットをさらに緩和する特徴編集戦略を導入する。」
論文 参考訳(メタデータ) (2023-07-16T14:41:22Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。