論文の概要: Difficulties with Evaluating a Deception Detector for AIs
- arxiv url: http://arxiv.org/abs/2511.22662v1
- Date: Thu, 27 Nov 2025 17:53:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.670382
- Title: Difficulties with Evaluating a Deception Detector for AIs
- Title(参考訳): AIにおける偽検出器の評価の難しさ
- Authors: Lewis Smith, Bilal Chughtai, Neel Nanda,
- Abstract要約: AIシステムに対する信頼性の高い偽造検知器の構築は、先進的なAIシステムからのリスク軽減に有用である。
しかし、提案された偽造検知器の信頼性と有効性を評価するには、偽造か正直などちらかと確実にラベル付けできる例が必要である。
私たちは現在、必要な例が欠如しており、それらを集める際のいくつかの具体的な障害を特定しています。
- 参考スコア(独自算出の注目度): 11.600884786394316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building reliable deception detectors for AI systems -- methods that could predict when an AI system is being strategically deceptive without necessarily requiring behavioural evidence -- would be valuable in mitigating risks from advanced AI systems. But evaluating the reliability and efficacy of a proposed deception detector requires examples that we can confidently label as either deceptive or honest. We argue that we currently lack the necessary examples and further identify several concrete obstacles in collecting them. We provide evidence from conceptual arguments, analysis of existing empirical works, and analysis of novel illustrative case studies. We also discuss the potential of several proposed empirical workarounds to these problems and argue that while they seem valuable, they also seem insufficient alone. Progress on deception detection likely requires further consideration of these problems.
- Abstract(参考訳): 高度なAIシステムからのリスクを軽減するには、AIシステムが必ずしも行動証拠を必要とせずに、戦略的に偽装されていることを予測可能な、AIシステムのための信頼性の高い偽造検知器を構築することが重要だ。
しかし、提案された偽造検知器の信頼性と有効性を評価するには、偽造か正直などちらかと確実にラベル付けできる例が必要である。
私たちは現在、必要な例が欠如しており、それらを集める際のいくつかの具体的な障害を特定しています。
我々は,概念的議論,既存の経験的著作の分析,新しい実証的事例研究の分析から証拠を提供する。
また、これらの問題に対していくつかの実証的な回避策が提案されている可能性についても論じ、それらが価値あるように見える一方で、それらだけでは不十分であると主張する。
偽造検出の進展は、これらの問題を更に検討する必要がある可能性が高い。
関連論文リスト
- AI Deception: Risks, Dynamics, and Controls [149.20033748212012]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - A Survey and Evaluation of Adversarial Attacks for Object Detection [11.48212060875543]
深層学習モデルは、信頼できるが誤った予測をすることを欺くような敵対的な例に対して脆弱である。
この脆弱性は、自動運転車、セキュリティ監視、安全クリティカルな検査システムなどの高リスクなアプリケーションに重大なリスクをもたらす。
本稿では,対象検出アーキテクチャに特有の敵攻撃を分類するための新しい分類枠組みを提案する。
論文 参考訳(メタデータ) (2024-08-04T05:22:08Z) - Unfooling Perturbation-Based Post Hoc Explainers [12.599362066650842]
最近の研究は、摂動に基づくポストホックの説明を逆さまに騙すことが実証されている。
この発見は監査人、規制当局、その他のセンチネルに悪影響を及ぼす。
本研究では,この問題を厳格に定式化し,摂動型説明器に対する敵攻撃に対する防御策を考案する。
論文 参考訳(メタデータ) (2022-05-29T21:28:12Z) - Adversarial Example Detection for DNN Models: A Review [13.131592630524905]
敵対的な例(AE)の目的は、ディープラーニングモデルを騙すことであり、DLアプリケーションに潜在的なリスクをもたらす。
少数のレビューと調査が出版され、理論的には脅威の分類と対策方法を示した。
このような方法に関する詳細な議論を行い、8つの最先端検出器の実験結果を示す。
論文 参考訳(メタデータ) (2021-05-01T09:55:17Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。