論文の概要: Knowledge Graph Guided Evaluation of Abstention Techniques
- arxiv url: http://arxiv.org/abs/2412.07430v1
- Date: Tue, 10 Dec 2024 11:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:14.014712
- Title: Knowledge Graph Guided Evaluation of Abstention Techniques
- Title(参考訳): 知識グラフによる留置技術の評価
- Authors: Kinshuk Vasisht, Navreet Kaur, Danish Pruthi,
- Abstract要約: 6つのオープンソースモデルとクローズドソースモデルに対して異なる禁忌テクニックをベンチマークする。
調査の結果,モデルが80%以上の棄権率で棄権されることが判明した。
しかし、これらの手法は対象概念の継承にはあまり効果がなく、拒絶率を19%下げている。
- 参考スコア(独自算出の注目度): 9.505918815853644
- License:
- Abstract: To deploy language models safely, it is crucial that they abstain from responding to inappropriate requests. Several prior studies test the safety promises of models based on their effectiveness in blocking malicious requests. In this work, we focus on evaluating the underlying techniques that cause models to abstain. We create SELECT, a benchmark derived from a set of benign concepts (e.g., "rivers") from a knowledge graph. The nature of SELECT enables us to isolate the effects of abstention techniques from other safety training procedures, as well as evaluate their generalization and specificity. Using SELECT, we benchmark different abstention techniques over six open-weight and closed-source models. We find that the examined techniques indeed cause models to abstain with over $80\%$ abstention rates. However, these techniques are not as effective for descendants of the target concepts, with refusal rates declining by $19\%$. We also characterize the generalization-vs-specificity trade-offs for different techniques. Overall, no single technique is invariably better than the others. Our findings call for a careful evaluation of different aspects of abstention, and hopefully inform practitioners of various trade-offs involved.
- Abstract(参考訳): 言語モデルを安全にデプロイするには、不適切な要求に対する応答を控えることが重要です。
いくつかの先行研究は、悪意のある要求をブロックする効果に基づいてモデルの安全性をテストした。
本研究は,モデルを棄却する基礎となる技術を評価することに焦点を当てる。
SELECTは知識グラフから一組の良心的概念(例えば「ダイバー」)から派生したベンチマークである。
SELECTの特性により、他の安全訓練手順から禁忌技術の効果を分離し、その一般化と特異性を評価することができる。
SELECTを用いて、6つのオープンウェイトおよびクローズドソースモデルに対して異なる禁忌手法をベンチマークする。
調査の結果,モデルが80 %以上の棄権率で棄権されることが判明した。
しかし、これらの手法は対象概念の継承にはあまり効果がなく、拒絶率を19 %$に下げている。
また、異なる手法に対する一般化-vs特異性トレードオフを特徴付ける。
全体として、どのテクニックも他のテクニックよりも間違いなく優れているものではありません。
本研究は, 留意点の異なる側面を慎重に評価し, 様々なトレードオフを実践者に通知することを目的としている。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis [12.921307214813357]
本論文の目的は,Pixel Elimination を用いた SHifted Adversaries と呼ばれる新しい説明手法を考案することである。
我々は、SHAPEは、一般的な重要度に基づく視覚的XAI手法の堅牢性と信頼性を測定するために使用される因果的指標を騙す逆説であることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:39:46Z) - Understanding the (Extra-)Ordinary: Validating Deep Model Decisions with Prototypical Concept-based Explanations [13.60538902487872]
本稿では, 実例的(地域的)かつクラス的(グローバル的)な意思決定戦略をプロトタイプを通じて伝達する, ポストホックなコンセプトベースXAIフレームワークを提案する。
我々は,3つのデータセットにまたがるアウト・オブ・ディストリビューション・サンプル,突発的なモデル行動,データ品質問題同定におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-28T10:53:26Z) - Fair Classifiers that Abstain without Harm [24.90899074869189]
批判的な応用においては、分類器は人間に意思決定を延期することが不可欠である。
本稿では,既存の分類器が特定のサンプルの予測を選択的に禁ずるポストホック法を提案する。
この枠組みは,同程度の禁制率で精度を犠牲にすることなく,公平性の違いの観点から既存手法より優れる。
論文 参考訳(メタデータ) (2023-10-09T23:07:28Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - One-shot Empirical Privacy Estimation for Federated Learning [43.317478030880956]
ワンショット」アプローチは、モデルパラメータに適合する単一トレーニング実行において、モデルのプライバシ損失の効率的な監査や推定を可能にする。
提案手法は,ガウス機構下でのプライバシー損失を正当に推定できることを示す。
論文 参考訳(メタデータ) (2023-02-06T19:58:28Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。