論文の概要: Foundations of Unknown-aware Machine Learning
- arxiv url: http://arxiv.org/abs/2505.14933v1
- Date: Tue, 20 May 2025 21:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.767175
- Title: Foundations of Unknown-aware Machine Learning
- Title(参考訳): 未知の機械学習の基礎
- Authors: Xuefeng Du,
- Abstract要約: この論文は、分布の不確実性や未知のクラスに起因する重要な信頼性問題に対処するためのアルゴリズム的基礎と理論的基礎の両方を発展させている。
コアコントリビューションは未知の学習フレームワークの開発であり、OODデータをラベル付けせずにモデルが新しい入力を認識し、処理することができる。
この論文はまた、大きな言語モデル(LLM)を含む基礎モデルへの信頼性のある学習も拡張している。
全体として、これらの貢献は未知の学習を新しいパラダイムとして推進し、人間の最小限の努力でAIシステムの信頼性を向上させることを願っています。
- 参考スコア(独自算出の注目度): 15.159780181377679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the reliability and safety of machine learning models in open-world deployment is a central challenge in AI safety. This thesis develops both algorithmic and theoretical foundations to address key reliability issues arising from distributional uncertainty and unknown classes, from standard neural networks to modern foundation models like large language models (LLMs). Traditional learning paradigms, such as empirical risk minimization (ERM), assume no distribution shift between training and inference, often leading to overconfident predictions on out-of-distribution (OOD) inputs. This thesis introduces novel frameworks that jointly optimize for in-distribution accuracy and reliability to unseen data. A core contribution is the development of an unknown-aware learning framework that enables models to recognize and handle novel inputs without labeled OOD data. We propose new outlier synthesis methods, VOS, NPOS, and DREAM-OOD, to generate informative unknowns during training. Building on this, we present SAL, a theoretical and algorithmic framework that leverages unlabeled in-the-wild data to enhance OOD detection under realistic deployment conditions. These methods demonstrate that abundant unlabeled data can be harnessed to recognize and adapt to unforeseen inputs, providing formal reliability guarantees. The thesis also extends reliable learning to foundation models. We develop HaloScope for hallucination detection in LLMs, MLLMGuard for defending against malicious prompts in multimodal models, and data cleaning methods to denoise human feedback used for better alignment. These tools target failure modes that threaten the safety of large-scale models in deployment. Overall, these contributions promote unknown-aware learning as a new paradigm, and we hope it can advance the reliability of AI systems with minimal human efforts.
- Abstract(参考訳): オープンワールドデプロイメントにおける機械学習モデルの信頼性と安全性を保証することは、AIの安全性において重要な課題である。
この論文は、標準ニューラルネットワークから大規模言語モデル(LLM)のような近代的な基礎モデルまで、分布の不確実性や未知のクラスに起因する重要な信頼性問題に対処するためのアルゴリズム的および理論的基盤の両方を発展させている。
経験的リスク最小化(ERM)のような伝統的な学習パラダイムは、トレーニングと推論の間の分散シフトを前提とせず、しばしばアウト・オブ・ディストリビューション(OOD)入力に対する過信的な予測につながる。
この論文では、流通の正確さと不適切なデータに対する信頼性を共同で最適化する新しいフレームワークを紹介している。
コアコントリビューションは未知の学習フレームワークの開発であり、OODデータをラベル付けせずにモデルが新しい入力を認識し、処理することができる。
本稿では,トレーニング中に未知情報を生成するために,新たな外部合成手法であるVOS,NPOS,DREAM-OODを提案する。
そこで本研究では,実運用環境下でのOOD検出を改善するために,未ラベルデータを活用する理論的,アルゴリズム的なフレームワークであるSALを提案する。
これらの方法では、豊富なラベルのないデータが、予期せぬ入力を認識および適応するために利用でき、正式な信頼性保証を提供する。
この論文は、信頼性のある学習を基礎モデルにも拡張している。
我々は,LLMにおける幻覚検出のためのHaloScope,マルチモーダルモデルにおける悪意あるプロンプトに対する防御のためのMLLMGuard,アライメントを改善するために使用される人間のフィードバックを識別するデータクリーニング手法を開発した。
これらのツールは、デプロイメントにおける大規模モデルの安全性を脅かす障害モードをターゲットにしている。
全体として、これらの貢献は未知の学習を新しいパラダイムとして推進し、人間の最小限の努力でAIシステムの信頼性を向上させることを願っています。
関連論文リスト
- xIDS-EnsembleGuard: An Explainable Ensemble Learning-based Intrusion Detection System [7.2738577621227085]
我々は、先進的な説明可能な侵入検知システム(xIDS)を設計することで、ネットワーク内の悪意ある攻撃を検出することの課題に対処することに注力する。
既存の機械学習とディープラーニングアプローチには、予測の潜在的なバイアス、解釈可能性の欠如、トレーニングデータに過度に適合するリスクなど、目に見えない制限がある。
本稿では,これらの課題を克服するためのアンサンブル学習手法"EnsembleGuard"を提案する。
論文 参考訳(メタデータ) (2025-03-01T20:49:31Z) - Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models [63.43422118066493]
マシン・アンラーニング(MU)は安全でセキュアで信頼性の高いGenAIモデルを開発する上で重要な基盤である。
従来のMUメソッドは、しばしば厳密な仮定に依存し、実際のデータへのアクセスを必要とする。
本稿では,拡散モデルにおいて望ましくない情報を忘れることを促進する革新的なMUアプローチであるScore Forgetting Distillation (SFD)を紹介する。
論文 参考訳(メタデータ) (2024-09-17T14:12:50Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Data-Driven Lipschitz Continuity: A Cost-Effective Approach to Improve Adversarial Robustness [47.9744734181236]
我々は、ディープニューラルネットワーク(DNN)の敵攻撃に対する堅牢性を証明するために、リプシッツ連続性の概念を探求する。
本稿では,入力領域を制約範囲に再マップし,リプシッツ定数を低減し,ロバスト性を高める新しいアルゴリズムを提案する。
本手法は,ロバストベンチリーダーボード上のCIFAR10,CIFAR100,ImageNetデータセットに対して,最も堅牢な精度を実現する。
論文 参考訳(メタデータ) (2024-06-28T03:10:36Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Embracing Unknown Step by Step: Towards Reliable Sparse Training in Real World [23.836541532002126]
スパーストレーニングは、現実世界のアプリケーションにおいて、リソース効率の高いディープニューラルネットワーク(DNN)の有望な方法として登場した。
しかし、スパースモデルの信頼性は、特に未知のアウト・オブ・ディストリビューション(OOD)データを検出する上で重要な問題である。
本研究は,OODの観点からスパーストレーニングの信頼性を検討することにより,知識ギャップに対処する。
本稿では,損失修正,自動チューニング,投票方式を取り入れた未知のスパース学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T08:33:05Z) - Dynamic Model Agnostic Reliability Evaluation of Machine-Learning
Methods Integrated in Instrumentation & Control Systems [1.8978726202765634]
データ駆動型ニューラルネットワークベースの機械学習アルゴリズムの信頼性は十分に評価されていない。
National Institute for Standards and Technologyの最近のレポートでは、MLにおける信頼性は採用にとって重要な障壁となっている。
トレーニングデータセットにアウト・オブ・ディストリビューション検出を組み込むことにより、ML予測の相対的信頼性を評価するためのリアルタイムモデル非依存手法を実証する。
論文 参考訳(メタデータ) (2023-08-08T18:25:42Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Robust Deep Learning for Autonomous Driving [0.0]
モデル信頼度を確実に推定する新しい基準を導入する:真のクラス確率(TCP)
真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。
本研究は, 既知モデルに基づく新たな不確実性尺度を導入することで, 誤分類と分布外サンプルを共同で検出する課題に対処する。
論文 参考訳(メタデータ) (2022-11-14T22:07:11Z) - RoFL: Attestable Robustness for Secure Federated Learning [59.63865074749391]
フェデレートラーニング(Federated Learning)により、多数のクライアントが、プライベートデータを共有することなく、ジョイントモデルをトレーニングできる。
クライアントのアップデートの機密性を保証するため、フェデレートラーニングシステムはセキュアなアグリゲーションを採用している。
悪意のあるクライアントに対する堅牢性を向上させるセキュアなフェデレート学習システムであるRoFLを提案する。
論文 参考訳(メタデータ) (2021-07-07T15:42:49Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。