論文の概要: Improving Model Safety by Targeted Error Correction
- arxiv url: http://arxiv.org/abs/2605.02544v1
- Date: Mon, 04 May 2026 12:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.287323
- Title: Improving Model Safety by Targeted Error Correction
- Title(参考訳): 目標誤差補正によるモデル安全性の向上
- Authors: Abolfazl Mohammadi-Seif, Ricardo Baeza-Yates,
- Abstract要約: 二重分類器GBDTパイプラインを導入し,高リスクな非人間の誤分類から人間のような誤りを識別する。
動物データセットでは1.60%,ISICでは1.84%,SICAPv2では1.70%)。
ISICでは34.1%,SICAPv2では12.57%の危険な非人間的誤りを減らした。
- 参考スコア(独自算出の注目度): 10.82789277277678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of machine learning in critical applications demands techniques to mitigate high-consequence errors. Our method utilizes a dual-classifier GBDT pipeline to distinguish routine human-like errors from high-risk non-human misclassifications. Evaluated across three domains, animal breed classification, skin lesion diagnosis (ISIC 2018), and prostate histopathology (SICAPv2), our framework demonstrates robust safety improvements. To address real-world deployment concerns, our results confirm the pipeline introduces negligible inference latency (1.60% overhead for the animal dataset, 1.84% for ISIC, and 1.70% for SICAPv2) while outperforming traditional Maximum Class Probability (MCP) baselines in correction precision. Our conservative correction strategy successfully reduced dangerous non-human errors by 34.1% in ISIC and 12.57% in SICAPv2, improving super-class diagnostic safety to 90.41% and 92.13% respectively. This proves that safety-critical reliability can be substantially enhanced post-hoc without expensive model retraining. keywords: Error Analysis, Post-hoc Correction, Trustworthy AI.
- Abstract(参考訳): クリティカルなアプリケーションで機械学習が広く採用されているため、高頻度エラーを軽減する技術が求められている。
提案手法は, 二重分類器GBDTパイプラインを用いて, 高リスクな非人間の誤分類から, 日常的なヒューマンライクな誤りを識別する。
動物品種分類,皮膚病変診断 (ISIC 2018) , 前立腺病理組織学 (SICAPv2) の3分野にまたがって評価を行った。
実世界の展開問題に対処するため,本パイプラインは無視可能な推論遅延(動物データセットの1.60%オーバーヘッド,ISICの1.84%オーバーヘッド,SICAPv2の1.70%オーバーヘッド)を導入し,従来の最大クラス確率(MCP)ベースラインを精度で上回っていることを確認した。
われわれは,ISICでは34.1%,SICAPv2では12.57%,超クラス診断では90.41%,92.13%に改善した。
このことは、安全クリティカルな信頼性が、高価なモデル再訓練をすることなく、ポストホックを大幅に強化できることを証明している。
キーワード: エラー分析、ポストホック補正、信頼できるAI。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。
我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文 参考訳(メタデータ) (2026-03-16T17:37:17Z) - When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Optimization Instability in Autonomous Agentic Workflows for Clinical Symptom Detection [3.0950658457067433]
自律的改善の継続がパラドックス的に分類器の性能を低下させる現象について検討する。
検証感度はイテレーション毎に1.0から0.0の間で変動し,重度はクラス有病率に逆比例することがわかった。
セレクターエージェントの監視により、システムは専門家による脳霧検出のレキシコンを331%(F1)、胸痛を7%改善した。
論文 参考訳(メタデータ) (2026-02-17T21:45:20Z) - Temperature Scaling Attack Disrupting Model Confidence in Federated Learning [4.863985119779627]
精度を保ちながらキャリブレーションを低下させる訓練時間攻撃である温度スケーリング攻撃(TSA)を提案する。
その結果, 校正整合性は, 連合学習における重要な攻撃面として確立された。
論文 参考訳(メタデータ) (2026-02-06T12:01:54Z) - Powerful Training-Free Membership Inference Against Autoregressive Language Models [3.9380576851378657]
EZ-MIAは、重要な観測値を利用するメンバーシップ推論攻撃であり、記憶はエラー位置において最も強く現れる。
本稿では,誤差位置における確率シフトの方向不均衡を計測する誤差ゾーン(EZ)スコアを導入する。
その結果、微調整言語モデルのプライバシーリスクは、これまで理解されていたよりもかなり大きいことが判明した。
論文 参考訳(メタデータ) (2026-01-17T16:59:41Z) - Fine-Tuned LLMs Know They Don't Know: A Parameter-Efficient Approach to Recovering Honesty [48.593888815135934]
大規模言語モデル(LLM)は、高い領域での安全なデプロイメントにおいてますます重要になっている。
既存のリカバリ手法はデータ集約的なグローバルパラメータ調整に依存しており、SFTがモデルの知識境界を認識する能力を深く損なうことを暗黙的に仮定している。
我々は,この抑制された能力を外科的に修復するために,Honesty-Critical Neurons Restoration (HCNR)を提案する。
論文 参考訳(メタデータ) (2025-11-17T05:30:48Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - Accurate and Reliable Predictions with Mutual-Transport Ensemble [46.368395985214875]
Kullback-Leibler (KL) を用いた共学習補助モデルの提案とクロスエントロピー損失の適応的正則化
MTEは精度と不確実性の両方を同時に向上させることができる。
例えば、CIFAR-100データセットでは、我々のResNet34/50上のMTEメソッドは、従来の最先端の手法に比べて大幅に改善された。
論文 参考訳(メタデータ) (2024-05-30T03:15:59Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。