Fugu-MT 論文翻訳(概要): A Survey on Uncertainty Toolkits for Deep Learning

論文の概要: A Survey on Uncertainty Toolkits for Deep Learning

arxiv url: http://arxiv.org/abs/2205.01040v1
Date: Mon, 2 May 2022 17:23:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-03 16:10:00.437338
Title: A Survey on Uncertainty Toolkits for Deep Learning
Title（参考訳）: 深層学習のための不確実性ツールキットに関する研究
Authors: Maximilian Pintz, Joachim Sicking, Maximilian Poretschkin, Maram Akila
Abstract要約: ディープラーニング(DL)における不確実性推定のためのツールキットに関する第1回調査について述べる。モデリングおよび評価能力に関する11のツールキットについて検討する。最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。
参考スコア（独自算出の注目度）: 3.113304966059062
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The success of deep learning (DL) fostered the creation of unifying frameworks such as tensorflow or pytorch as much as it was driven by their creation in return. Having common building blocks facilitates the exchange of, e.g., models or concepts and makes developments easier replicable. Nonetheless, robust and reliable evaluation and assessment of DL models has often proven challenging. This is at odds with their increasing safety relevance, which recently culminated in the field of "trustworthy ML". We believe that, among others, further unification of evaluation and safeguarding methodologies in terms of toolkits, i.e., small and specialized framework derivatives, might positively impact problems of trustworthiness as well as reproducibility. To this end, we present the first survey on toolkits for uncertainty estimation (UE) in DL, as UE forms a cornerstone in assessing model reliability. We investigate 11 toolkits with respect to modeling and evaluation capabilities, providing an in-depth comparison for the three most promising ones, namely Pyro, Tensorflow Probability, and Uncertainty Quantification 360. While the first two provide a large degree of flexibility and seamless integration into their respective framework, the last one has the larger methodological scope.
Abstract（参考訳）: ディープラーニング(dl)の成功は、tensorflowやpytorchといった統一的なフレームワークの開発を、その見返りとして作り上げたのと同じくらい促進した。共通のビルディングブロックを持つことで、例えばモデルや概念の交換が容易になり、開発を複製しやすくする。それでもdlモデルの堅牢で信頼性の高い評価や評価は、しばしば困難であることが証明されている。これは、最近「信頼できるML」の分野で頂点に達した安全関連性の増加と矛盾している。我々は、特に、ツールキット、すなわち小型で専門的なフレームワークデリバティブの観点からの評価と保護の方法論のさらなる統一が、信頼性の問題や再現性に肯定的な影響を及ぼすと考えている。この目的のために, UE がモデル信頼性評価の基盤となるため, DL における不確実性推定(UE)のためのツールキットに関する最初の調査を行う。モデリングと評価能力に関する11のツールキットを調査し,pyro,tensorflow確率,不確かさの定量化360という,最も有望な3つのツールキットについて詳細な比較を行った。最初の2つは、それぞれのフレームワークに大きな柔軟性とシームレスな統合を提供するが、最後の2つは、より大きな方法論的スコープを持っている。

関連論文リスト

A Context-Aware Dual-Metric Framework for Confidence Estimation in Large Language Models [6.62851757612838]
大規模言語モデル(LLM)に対する現在の信頼度推定法は,応答と文脈情報の関連性を無視する。本稿では,2つの新しい指標を用いた信頼度推定のためのコンテキスト忠実度と一貫性を統合したCRUXを提案する。 3つのベンチマークデータセットに対する実験は、CRUXの有効性を示し、既存のベースラインよりも高いAUROCを達成した。
論文参考訳（メタデータ） (2025-08-01T12:58:34Z)
Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文参考訳（メタデータ） (2025-07-25T10:34:51Z)
Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文参考訳（メタデータ） (2025-06-14T04:04:54Z)
Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [48.15636223774418]
大きな言語モデル(LLM)は、不一致の自己認識のためにしばしば幻覚する。既存のアプローチは、不確実性推定やクエリの拒否を通じて幻覚を緩和する。高速かつ低速な推論システムを統合するための明示的知識境界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-04T03:16:02Z)
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [333.9220561243189]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2025-02-20T06:20:36Z)
A Critical Synthesis of Uncertainty Quantification and Foundation Models in Monocular Depth Estimation [13.062551984263031]
絶対距離の予測を伴う計量深度推定は、特定の課題を提起する。我々は、現在最先端のDepthAnythingV2基盤モデルを用いて、5つの異なる不確実性定量化手法を融合する。ガウス陰性対数損失(GNLL)による微調整は特に有望なアプローチである。
論文参考訳（メタデータ） (2025-01-14T15:13:00Z)
On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは信頼性公正性誤用の可能性について批判的な議論を巻き起こしました埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文参考訳（メタデータ） (2024-11-21T09:46:55Z)
Rethinking the Uncertainty: A Critical Review and Analysis in the Era of Large Language Models [42.563558441750224]
大規模言語モデル(LLM)は、幅広い人工知能応用の基礎となっている。現在の手法はしばしば、真の不確実性を特定し、測定し、対処するのに苦労する。本稿では,不確実性の種類や原因を特定し,理解するための包括的枠組みを提案する。
論文参考訳（メタデータ） (2024-10-26T15:07:15Z)
UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。 1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文参考訳（メタデータ） (2024-06-18T16:50:38Z)
Challenges and Considerations in the Evaluation of Bayesian Causal Discovery [49.0053848090947]
因果発見の不確実性を表現することは、実験設計において重要な要素であり、より広く、安全で信頼性の高い因果決定のために重要である。単一の推定因果グラフとモデルパラメータによる評価に依存する非ベイズ因果発見とは異なり、因果発見はその量の性質に起因する課題を提示する。評価に最も適した指標についてのコンセンサスはない。
論文参考訳（メタデータ） (2024-06-05T12:45:23Z)
Large Language Model Confidence Estimation via Black-Box Access [30.490207799344333]
そこで我々は,新しい特徴を設計し,信頼度を推定するために(解釈可能な)モデルを訓練する,シンプルなフレームワークを提案する。我々は,Flan-ul2,-13b, Mistral-7bの4つのベンチマークQ&Aタスクに対する信頼度を推定する上で,我々のフレームワークが有効であることを示す。私たちの解釈可能なアプローチは、信頼の予測可能な機能に関する洞察を与え、興味深く有用な発見につながります。
論文参考訳（メタデータ） (2024-06-01T02:08:44Z)
Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。モデルの内部と信頼感の一致を調査する。分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文参考訳（メタデータ） (2024-05-25T15:42:04Z)
Towards Precise Observations of Neural Model Robustness in Classification [2.127049691404299]
ディープラーニングアプリケーションでは、ロバストネスは入力データのわずかな変化を処理するニューラルネットワークの能力を測定する。私たちのアプローチは、安全クリティカルなアプリケーションにおけるモデルロバストネスのより深い理解に寄与します。
論文参考訳（メタデータ） (2024-04-25T09:37:44Z)
Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-07T12:06:53Z)
Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文参考訳（メタデータ） (2023-07-19T12:11:15Z)
Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文参考訳（メタデータ） (2023-06-02T04:29:57Z)
Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文参考訳（メタデータ） (2023-04-13T17:56:08Z)
Assessing the Reliability of Deep Learning Classifiers Through Robustness Evaluation and Operational Profiles [13.31639740011618]
本稿では,Deep Learning (DL)分類器のモデルに依存しない信頼性評価手法を提案する。入力空間を小さなセルに分割し、与えられたアプリケーションの運用プロファイル(OP)に従って、その堅牢性を(基礎的な真実に)"組み立てる。信頼度は、入力(pmi)毎の誤分類の確率で推定され、信頼度とともに導出できる。
論文参考訳（メタデータ） (2021-06-02T16:10:46Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。