Fugu-MT 論文翻訳(概要): Classification with Conceptual Safeguards

論文の概要: Classification with Conceptual Safeguards

arxiv url: http://arxiv.org/abs/2411.04342v1
Date: Thu, 07 Nov 2024 00:41:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.185149
Title: Classification with Conceptual Safeguards
Title（参考訳）: コンセプトセーフガードによる分類
Authors: Hailey Joren, Charles Marx, Berk Ustun,
Abstract要約: 確立された概念を用いた分類作業における安全性向上のための新しいアプローチを提案する。コンセプトセーフガードと呼ばれる私たちのアプローチは、モデルの検証レイヤとして機能します。我々は、実世界のデータセットと合成データセットの集合にアプローチをベンチマークする。
参考スコア（独自算出の注目度）: 7.093692674858257
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new approach to promote safety in classification tasks with established concepts. Our approach -- called a conceptual safeguard -- acts as a verification layer for models that predict a target outcome by first predicting the presence of intermediate concepts. Given this architecture, a safeguard ensures that a model meets a minimal level of accuracy by abstaining from uncertain predictions. In contrast to a standard selective classifier, a safeguard provides an avenue to improve coverage by allowing a human to confirm the presence of uncertain concepts on instances on which it abstains. We develop methods to build safeguards that maximize coverage without compromising safety, namely techniques to propagate the uncertainty in concept predictions and to flag salient concepts for human review. We benchmark our approach on a collection of real-world and synthetic datasets, showing that it can improve performance and coverage in deep learning tasks.
Abstract（参考訳）: 確立された概念を用いた分類作業における安全性向上のための新しいアプローチを提案する。私たちのアプローチは、概念的セーフガードと呼ばれ、中間概念の存在を最初に予測することによって、目標とする結果を予測するモデルの検証層として機能します。このアーキテクチャを前提として、モデルが不確実な予測を控えることで、最小限の精度を満たすことを保証する。標準的な選択型分類器とは対照的に、安全ガードは、人間が不確実な概念の存在を確認することによって、被包括性を改善するための手段を提供する。我々は,安全性を損なうことなく,安全を最大化する安全対策,すなわち概念予測の不確実性を広める技術を開発し,人間のレビューのために健全な概念にフラグを立てる。我々は、実世界のデータセットと合成データセットの集合にアプローチをベンチマークし、ディープラーニングタスクのパフォーマンスとカバレッジを向上させることができることを示した。

関連論文リスト

Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-22T08:34:35Z)
Guarding the Gate: ConceptGuard Battles Concept-Level Backdoors in Concept Bottleneck Models [8.793955189563516]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、高レベルのセマンティック概念を用いて透明性を高める。 CBMは、これらの概念に隠れたトリガーを注入する概念レベルのバックドア攻撃に弱いため、検出不能な異常な振る舞いを引き起こす。本研究では,概念レベルのバックドア攻撃からCBMを保護するために設計された新しい防御フレームワークであるConceptGuardを紹介する。
論文参考訳（メタデータ） (2024-11-25T15:55:06Z)
Know Where You're Uncertain When Planning with Multimodal Foundation Models: A Formal Framework [54.40508478482667]
認識と計画生成の不確実性を解消し、定量化し、緩和する包括的枠組みを提案する。本稿では,知覚と意思決定の独特な性質に合わせた手法を提案する。この不確実性分散フレームワークは, 変動率を最大40%削減し, タスク成功率をベースラインに比べて5%向上させることを示した。
論文参考訳（メタデータ） (2024-11-03T17:32:00Z)
Calibrated Probabilistic Forecasts for Arbitrary Sequences [58.54729945445505]
実際のデータストリームは、分散シフトやフィードバックループ、敵アクターによって予測不可能に変化する可能性がある。データがどのように進化するかに関わらず、有効な不確実性推定を保証するための予測フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-27T21:46:42Z)
Certified Human Trajectory Prediction [66.1736456453465]
交通予知は自動運転車に不可欠な役割を担っている。本稿では,軌道予測作業に適した認証手法を提案する。非有界出力や変異モダリティを含む、軌道予測に関連する固有の課題に対処する。
論文参考訳（メタデータ） (2024-03-20T17:41:35Z)
Boosting Adversarial Robustness using Feature Level Stochastic Smoothing [46.86097477465267]
敵の防御は、ディープニューラルネットワークの堅牢性を大幅に向上させた。本研究では,ネットワーク予測における導入性に関する一般的な手法を提案する。また、信頼性の低い予測を拒否する意思決定の円滑化にも活用する。
論文参考訳（メタデータ） (2023-06-10T15:11:24Z)
Safe Explicable Planning [3.3869539907606603]
安全計画(SEP:Safe Explicable Planning)を提案する。提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
論文参考訳（メタデータ） (2023-04-04T21:49:02Z)
Understanding and Enhancing Robustness of Concept-based Models [41.20004311158688]
対向摂動に対する概念ベースモデルの堅牢性について検討する。本稿では、まず、概念ベースモデルのセキュリティ脆弱性を評価するために、さまざまな悪意ある攻撃を提案し、分析する。そこで我々は,これらのシステムのロバスト性を高めるための,汎用的対人訓練に基づく防御機構を提案する。
論文参考訳（メタデータ） (2022-11-29T10:43:51Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文参考訳（メタデータ） (2020-06-19T13:24:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。