論文の概要: Building Better Deception Probes Using Targeted Instruction Pairs
- arxiv url: http://arxiv.org/abs/2602.01425v1
- Date: Sun, 01 Feb 2026 20:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.775716
- Title: Building Better Deception Probes Using Targeted Instruction Pairs
- Title(参考訳): 目標とした命令ペアを用いたより優れた認識プローブの構築
- Authors: Vikram Natarajan, Devina Jain, Shivam Arora, Satvik Golechha, Joseph Bloom,
- Abstract要約: 線形プローブは、騙し行動のためのAIシステムを監視するための有望なアプローチである。
本稿では,トレーニング中に使用する命令ペアの重要性を明らかにする。
本研究は,人為的に解釈可能な擬人化分類による特定の擬人化行動のターゲティングが,評価データセットの改善につながることを示す。
- 参考スコア(独自算出の注目度): 1.610762469264735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear probes are a promising approach for monitoring AI systems for deceptive behaviour. Previous work has shown that a linear classifier trained on a contrastive instruction pair and a simple dataset can achieve good performance. However, these probes exhibit notable failures even in straightforward scenarios, including spurious correlations and false positives on non-deceptive responses. In this paper, we identify the importance of the instruction pair used during training. Furthermore, we show that targeting specific deceptive behaviors through a human-interpretable taxonomy of deception leads to improved results on evaluation datasets. Our findings reveal that instruction pairs capture deceptive intent rather than content-specific patterns, explaining why prompt choice dominates probe performance (70.6% of variance). Given the heterogeneity of deception types across datasets, we conclude that organizations should design specialized probes targeting their specific threat models rather than seeking a universal deception detector.
- Abstract(参考訳): 線形プローブは、騙し行動のためのAIシステムを監視するための有望なアプローチである。
従来の研究では、対照的な命令ペアと単純なデータセットで訓練された線形分類器が優れた性能を発揮することが示されている。
しかし、これらの調査は、素直なシナリオにおいても顕著な失敗を示しており、素早い相関や非知覚応答に対する偽陽性がある。
本稿では,トレーニング中に使用する命令ペアの重要性を明らかにする。
さらに, 人為的解釈可能な擬態分類による特定の擬態行動のターゲティングが, 評価データセットの改善に繋がることを示す。
本研究により, 命令対は内容特異的なパターンではなく, 認識意図を捉え, 素早い選択がプローブ性能(70.6%)を左右する理由が示唆された。
データセット間の偽装型の不均一性を考えると、組織は普遍的偽装検知器を探すのではなく、特定の脅威モデルをターゲットにした特殊なプローブを設計すべきであると結論付けている。
関連論文リスト
- Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Prototypical Contrastive Learning through Alignment and Uniformity for
Recommendation [6.790779112538357]
提案するアンダーライン・アライメントとアンダーライン・ユニフォーマル性によるインダーライン型コントラスト学習について述べる。
具体的には、まず、原点グラフから異なる拡張点間の整合性を確保するために、潜時空間としてプロトタイプを提案する。
明示的な負の欠如は、インスタンスとプロトタイプ間の整合性損失を直接最適化することで、次元的な崩壊の問題が容易に生じることを意味する。
論文 参考訳(メタデータ) (2024-02-03T08:19:26Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Out-of-Scope Intent Detection with Self-Supervision and Discriminative
Training [20.242645823965145]
タスク指向対話システムにおいて、スコープ外インテント検出は実用上重要である。
本稿では,テストシナリオをシミュレートして,スコープ外インテント分類器をエンドツーエンドに学習する手法を提案する。
提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-16T08:17:18Z) - Generalized Zero-shot Intent Detection via Commonsense Knowledge [5.398580049917152]
学習データ不足の問題を克服するために,教師なしの方法でコモンセンス知識を活用する意図検出モデル RIDE を提案する。
RIDEは、発話と意図ラベルの間の深い意味的関係をキャプチャする、堅牢で一般化可能な関係メタ機能を計算する。
広範に使用されている3つのインテント検出ベンチマークに関する広範囲な実験的分析により、関係メタ機能により、目に見えないインテントと見えないインテントの両方を検出する精度が著しく向上することが示された。
論文 参考訳(メタデータ) (2021-02-04T23:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。