論文の概要: UncertaintyZoo: A Unified Toolkit for Quantifying Predictive Uncertainty in Deep Learning Systems
- arxiv url: http://arxiv.org/abs/2512.06406v1
- Date: Sat, 06 Dec 2025 11:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.346748
- Title: UncertaintyZoo: A Unified Toolkit for Quantifying Predictive Uncertainty in Deep Learning Systems
- Title(参考訳): UncertaintyZoo:ディープラーニングシステムにおける予測不確かさの定量化のための統一ツールキット
- Authors: Xianzong Wu, Xiaohong Li, Lili Quan, Qiang Hu,
- Abstract要約: 大規模言語モデル(LLM)は、ドメイン間で現実世界のアプリケーションを拡大している。
この成果にもかかわらず、LLMはしばしば誤った予測を行い、安全クリティカルなシナリオの潜在的な損失につながる可能性がある。
我々は29個の不確実性定量化手法を統合する統一ツールキットUncertaintyZooを紹介する。
- 参考スコア(独自算出の注目度): 5.790749437470997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models(LLMs) are increasingly expanding their real-world applications across domains, e.g., question answering, autonomous driving, and automatic software development. Despite this achievement, LLMs, as data-driven systems, often make incorrect predictions, which can lead to potential losses in safety-critical scenarios. To address this issue and measure the confidence of model outputs, multiple uncertainty quantification(UQ) criteria have been proposed. However, even though important, there are limited tools to integrate these methods, hindering the practical usage of UQ methods and future research in this domain. To bridge this gap, in this paper, we introduce UncertaintyZoo, a unified toolkit that integrates 29 uncertainty quantification methods, covering five major categories under a standardized interface. Using UncertaintyZoo, we evaluate the usefulness of existing uncertainty quantification methods under the code vulnerability detection task on CodeBERT and ChatGLM3 models. The results demonstrate that UncertaintyZoo effectively reveals prediction uncertainty. The tool with a demonstration video is available on the project site https://github.com/Paddingbuta/UncertaintyZoo.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ドメイン、質問応答、自律運転、自動ソフトウェア開発など、現実のアプリケーションをますます拡張している。
この成果にもかかわらず、データ駆動システムであるLLMは、しばしば誤った予測を行い、安全クリティカルなシナリオの潜在的な損失につながる可能性がある。
この問題に対処し、モデル出力の信頼度を測定するために、複数の不確実量化(UQ)基準が提案されている。
しかし、これらの手法を統合するツールは限られており、UQ手法の実用化や今後の研究を妨げている。
このギャップを埋めるために,29個の不確実性定量化手法を統合する統一ツールキットUncertaintyZooを導入する。
IncertaintyZooを用いて,CodeBERTおよびChatGLM3モデルのコード脆弱性検出タスクにおいて,既存の不確実性定量化手法の有用性を評価する。
その結果、不確実性Zooは予測の不確実性を効果的に明らかにしている。
デモビデオ付きのツールは、プロジェクトサイトhttps://github.com/Paddingbuta/UncertaintyZooで公開されている。
関連論文リスト
- Torch-Uncertainty: A Deep Learning Framework for Uncertainty Quantification [11.898587151486709]
ディープラーニングのための不確実性定量化(UQ)は、不確実性推定の信頼性を向上させることを目的としている。
我々はPyTorchとLightningベースのフレームワークであるTorch-Uncertaintyを紹介した。
分類,セグメンテーション,回帰タスクにまたがる様々なUQ手法をベンチマークする総合的な実験結果を示す。
論文 参考訳(メタデータ) (2025-11-13T13:12:52Z) - UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models [51.53270695871237]
UNCERTAINTY-LINEは、名目上は長さ正規化UQ法よりも一貫して改善されていることを示す。
本手法は, ポストホック, モデル非依存であり, 様々なUQ尺度に適用可能である。
論文 参考訳(メタデータ) (2025-05-25T09:30:43Z) - Uncertainty Quantification and Confidence Calibration in Large Language Models: A Survey [11.737403011836532]
LLM(Large Language Models)は、医療、法律、交通といった高度な分野において、テキスト生成、推論、意思決定に優れる。
不確実性定量化(UQ)は、アウトプットの信頼度を推定することで信頼性を高め、リスク軽減と選択的予測を可能にする。
計算効率と不確実性次元に基づいてUQ手法を分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-03-20T05:04:29Z) - Estimating LLM Uncertainty with Evidence [66.51144261657983]
本稿では,大規模言語モデルにおける非結合トークンの不確実性を推定するためのフレームワークとして,ロジッツ誘発トークン不確実性(LogTokU)を提案する。
我々は,LogTokUの実装にエビデンスモデリングを採用し,その不確実性を推定して下流タスクを導出する。
論文 参考訳(メタデータ) (2025-02-01T03:18:02Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty Quantification for Forward and Inverse Problems of PDEs via
Latent Global Evolution [110.99891169486366]
本稿では,効率的かつ高精度な不確実性定量化を深層学習に基づく代理モデルに統合する手法を提案する。
本手法は,フォワード問題と逆問題の両方に対して,堅牢かつ効率的な不確実性定量化機能を備えたディープラーニングに基づく代理モデルを提案する。
提案手法は, 長期予測を含むシナリオに適合し, 拡張された自己回帰ロールアウトに対する不確かさの伝播に優れる。
論文 参考訳(メタデータ) (2024-02-13T11:22:59Z) - Building Safe and Reliable AI systems for Safety Critical Tasks with
Vision-Language Processing [1.2183405753834557]
現在のAIアルゴリズムでは、障害検出の一般的な原因を特定できない。
予測の質を定量化するためには、追加のテクニックが必要である。
この論文は、分類、画像キャプション、視覚質問応答といったタスクのための視覚言語データ処理に焦点を当てる。
論文 参考訳(メタデータ) (2023-08-06T18:05:59Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - A Gentle Introduction to Conformal Prediction and Distribution-Free
Uncertainty Quantification [1.90365714903665]
このハンズオン導入は、配布不要なUQの実践的な実装に関心のある読者を対象としている。
PyTorch構文で、Pythonで説明的なイラストやサンプル、コードサンプルを多数含みます。
論文 参考訳(メタデータ) (2021-07-15T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。