論文の概要: Knowledge Graph Guided Evaluation of Abstention Techniques
- arxiv url: http://arxiv.org/abs/2412.07430v2
- Date: Sat, 08 Feb 2025 19:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:17.066889
- Title: Knowledge Graph Guided Evaluation of Abstention Techniques
- Title(参考訳): 知識グラフによる留置技術の評価
- Authors: Kinshuk Vasisht, Navreet Kaur, Danish Pruthi,
- Abstract要約: 6つのオープンソースモデルとクローズドソースモデルに対して異なる禁忌テクニックをベンチマークする。
調査の結果,モデルが80%以上の棄権率で棄権されることが判明した。
しかし、これらの手法は、禁忌率が19%の目標概念の子孫にとって効果がない。
- 参考スコア(独自算出の注目度): 9.505918815853644
- License:
- Abstract: To deploy language models safely, it is crucial that they abstain from responding to inappropriate requests. Several prior studies test the safety promises of models based on their effectiveness in blocking malicious requests. In this work, we focus on evaluating the underlying techniques that cause models to abstain. We create SELECT, a benchmark derived from a set of benign concepts (e.g., "rivers") from a knowledge graph. Focusing on benign concepts isolates the effect of safety training, and grounding these concepts in a knowledge graph allows us to study the generalization and specificity of abstention techniques. Using SELECT, we benchmark different abstention techniques over six open-weight and closed-source models. We find that the examined techniques indeed cause models to abstain with over $80\%$ abstention rates. However, these techniques are not as effective for descendants of the target concepts, where abstention rates drop by $19\%$. We also characterize the generalization-specificity trade-offs for different techniques. Overall, no single technique is invariably better than others, and our findings inform practitioners of the various trade-offs involved.
- Abstract(参考訳): 言語モデルを安全にデプロイするには、不適切な要求に対する応答を控えることが重要です。
いくつかの先行研究は、悪意のある要求をブロックする効果に基づいてモデルの安全性をテストした。
本研究は,モデルを棄却する基礎となる技術を評価することに焦点を当てる。
SELECTは知識グラフから一組の良心的概念(例えば「ダイバー」)から派生したベンチマークである。
良心的な概念に焦点をあてることで、安全訓練の効果を分離し、知識グラフにこれらの概念を基礎づけることで、禁忌技術の一般化と特異性を研究することができる。
SELECTを用いて、6つのオープンウェイトおよびクローズドソースモデルに対して異なる禁忌手法をベンチマークする。
調査の結果,モデルが80 %以上の棄権率で棄権されることが判明した。
しかし、これらのテクニックは、禁忌率が19.%$に低下するターゲット概念の子孫には効果がない。
また、異なる手法の一般化特異性トレードオフを特徴付ける。
全体としては、どのテクニックも他のテクニックよりも間違いなく優れているわけではなく、我々の発見は、関係するさまざまなトレードオフについて実践者に通知する。
関連論文リスト
- Comprehensive Assessment and Analysis for NSFW Content Erasure in Text-to-Image Diffusion Models [16.60455968933097]
概念消去手法は、トレーニングデータセットからNSFWコンテンツをフィルタリングしても、必然的にNSFWコンテンツを生成できる。
テキスト・画像拡散モデルにおいて,NSFWコンテンツの概念消去手法とそのサブテーマを初めて体系的に検討した。
14の変種を持つ11の最先端ベースライン手法の総合評価を行う。
論文 参考訳(メタデータ) (2025-02-18T04:25:42Z) - AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors [61.007590285263376]
セキュリティ上の懸念から、研究者たちは微調整によって不適切な概念を学ばざるを得なくなった。
最近の微調整手法は、望ましくない概念を排除し、他の概念を保存することの間のかなりの性能のトレードオフを示す。
本稿では,貿易問題を軽減するために,敵対的アンカーを生成する新しいアプローチであるAdvAnchorを提案する。
論文 参考訳(メタデータ) (2024-12-28T04:44:07Z) - Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.055899073629]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。
未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。
これら2つの目標 - モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 - は、様々な技術的および現実的な課題を表す。
論文 参考訳(メタデータ) (2024-12-09T20:18:43Z) - Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning [8.831339626121848]
ソースコードとアーティファクトによる包括的な評価フレームワークをリリースします。
我々の研究は、特により複雑で現実的な状況において、あらゆる方法が副作用や制限を持っていることを明らかにしている。
論文 参考訳(メタデータ) (2024-10-08T03:30:39Z) - Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis [12.921307214813357]
本論文の目的は,Pixel Elimination を用いた SHifted Adversaries と呼ばれる新しい説明手法を考案することである。
我々は、SHAPEは、一般的な重要度に基づく視覚的XAI手法の堅牢性と信頼性を測定するために使用される因果的指標を騙す逆説であることを示す。
論文 参考訳(メタデータ) (2024-06-12T02:39:46Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Fair Classifiers that Abstain without Harm [24.90899074869189]
批判的な応用においては、分類器は人間に意思決定を延期することが不可欠である。
本稿では,既存の分類器が特定のサンプルの予測を選択的に禁ずるポストホック法を提案する。
この枠組みは,同程度の禁制率で精度を犠牲にすることなく,公平性の違いの観点から既存手法より優れる。
論文 参考訳(メタデータ) (2023-10-09T23:07:28Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - One-shot Empirical Privacy Estimation for Federated Learning [43.317478030880956]
ワンショット」アプローチは、モデルパラメータに適合する単一トレーニング実行において、モデルのプライバシ損失の効率的な監査や推定を可能にする。
提案手法は,ガウス機構下でのプライバシー損失を正当に推定できることを示す。
論文 参考訳(メタデータ) (2023-02-06T19:58:28Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。