論文の概要: Experiments with Detecting and Mitigating AI Deception
- arxiv url: http://arxiv.org/abs/2306.14816v1
- Date: Mon, 26 Jun 2023 16:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:36:35.121666
- Title: Experiments with Detecting and Mitigating AI Deception
- Title(参考訳): AIの誤認を検知・緩和する実験
- Authors: Ismail Sahbane, Francis Rhys Ward, C Henrik {\AA}slund
- Abstract要約: 安全で信頼性の高いAI分野において、AIシステムを検知し、欺く方法がオープンな問題である。
第一に、偽証を動機づけるゲーム内のパスを除去するパス固有の客観的な枠組みを基礎として、偽造を緩和する2つのアルゴリズムを分析した。
2つ目は、保護、すなわち安全でないポリシーの監視、安全な参照ポリシーに置き換えることに基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to detect and mitigate deceptive AI systems is an open problem for the
field of safe and trustworthy AI. We analyse two algorithms for mitigating
deception: The first is based on the path-specific objectives framework where
paths in the game that incentivise deception are removed. The second is based
on shielding, i.e., monitoring for unsafe policies and replacing them with a
safe reference policy. We construct two simple games and evaluate our
algorithms empirically. We find that both methods ensure that our agent is not
deceptive, however, shielding tends to achieve higher reward.
- Abstract(参考訳): 偽りのAIシステムを検知し緩和する方法は、安全で信頼できるAI分野のオープンな問題である。
第1のアルゴリズムは、デセプションをインセンティブとするゲーム内のパスを取り除いたパス固有のobjectivesフレームワークに基づいています。
2つ目は、保護、すなわち安全でないポリシーの監視、安全な参照ポリシーに置き換えることに基づいている。
2つの簡単なゲームを構築し、アルゴリズムを経験的に評価する。
どちらの方法もエージェントが欺かないことを保証するが、遮蔽はより高い報酬を得る傾向がある。
関連論文リスト
- Inception: Efficiently Computable Misinformation Attacks on Markov Games [14.491458698581038]
情報非対称性と誤情報によるマルコフゲームに対するセキュリティ脅威について検討する。
我々は、攻撃者の最適な最悪のケースポリシーを計算するために、最悪のケース合理性と現在のアルゴリズムの下で被害者のポリシーを導出する。
我々の研究は、誤った情報の下での標準的なゲームの仮定からセキュリティの脆弱性を露呈する。
論文 参考訳(メタデータ) (2024-06-24T20:01:43Z) - Honesty Is the Best Policy: Defining and Mitigating AI Deception [26.267047631872366]
我々は、エージェントが目標を達成するために騙される可能性のある問題に焦点を当てる。
本稿では,構造因果ゲームにおける偽造の形式的定義を紹介する。
実験により、これらの結果は、強化学習エージェントや言語モデルにおける騙しの軽減に有効であることが示された。
論文 参考訳(メタデータ) (2023-12-03T11:11:57Z) - Enhancing Infrared Small Target Detection Robustness with Bi-Level
Adversarial Framework [61.34862133870934]
本稿では,異なる汚職の存在下での検出の堅牢性を促進するために,二段階の対向的枠組みを提案する。
我々の手法は広範囲の汚職で21.96%のIOUを著しく改善し、特に一般ベンチマークで4.97%のIOUを推進している。
論文 参考訳(メタデータ) (2023-09-03T06:35:07Z) - System III: Learning with Domain Knowledge for Safety Constraints [0.0]
本稿では,安全な探索とサンプル効率の向上を支援するために,ドメイン知識を取り入れた新しいフレームワークを提案する。
このアプローチでは、$textitSystem III$と呼ばれ、一階述語論理という形で安全に関するドメインエキスパートの知識を表現します。
提案手法が OpenAI の Gym および Safety-Gym 環境に与える影響を評価する。
論文 参考訳(メタデータ) (2023-04-23T09:44:41Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Surveillance Evasion Through Bayesian Reinforcement Learning [78.79938727251594]
ランダム終端の強度が全く不明な2次元連続経路計画問題を考える。
これらのオブザーバーの監視強度は未知であり、反復的な経路計画を通じて学ぶ必要がある。
論文 参考訳(メタデータ) (2021-09-30T02:29:21Z) - Exploration and Incentives in Reinforcement Learning [107.42240386544633]
各エージェントが同一(ただし未知)のMDPに直面する複雑な探索問題を考察する。
エージェントはポリシーの選択を制御するが、アルゴリズムは推奨事項のみを発行できる。
MDPのすべての到達可能な状態を探索するアルゴリズムを設計します。
論文 参考訳(メタデータ) (2021-02-28T00:15:53Z) - Discovering Imperfectly Observable Adversarial Actions using Anomaly
Detection [0.24244694855867271]
異常検出は異常で不審な振る舞いを発見する方法である。
このようなゲームを解くためのアルゴリズムを2つ提案する。
実験により、両方のアルゴリズムが低特徴空間次元の場合に適用可能であることが示された。
論文 参考訳(メタデータ) (2020-04-22T15:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。