論文の概要: Honesty Is the Best Policy: Defining and Mitigating AI Deception
- arxiv url: http://arxiv.org/abs/2312.01350v1
- Date: Sun, 3 Dec 2023 11:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:44:41.758802
- Title: Honesty Is the Best Policy: Defining and Mitigating AI Deception
- Title(参考訳): aiの騙しの定義と緩和は、正直さが最善の方針だ
- Authors: Francis Rhys Ward, Francesco Belardinelli, Francesca Toni, Tom Everitt
- Abstract要約: 我々は、エージェントが目標を達成するために騙される可能性のある問題に焦点を当てる。
本稿では,構造因果ゲームにおける偽造の形式的定義を紹介する。
実験により、これらの結果は、強化学習エージェントや言語モデルにおける騙しの軽減に有効であることが示された。
- 参考スコア(独自算出の注目度): 26.267047631872366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deceptive agents are a challenge for the safety, trustworthiness, and
cooperation of AI systems. We focus on the problem that agents might deceive in
order to achieve their goals (for instance, in our experiments with language
models, the goal of being evaluated as truthful). There are a number of
existing definitions of deception in the literature on game theory and symbolic
AI, but there is no overarching theory of deception for learning agents in
games. We introduce a formal definition of deception in structural causal
games, grounded in the philosophy literature, and applicable to real-world
machine learning systems. Several examples and results illustrate that our
formal definition aligns with the philosophical and commonsense meaning of
deception. Our main technical result is to provide graphical criteria for
deception. We show, experimentally, that these results can be used to mitigate
deception in reinforcement learning agents and language models.
- Abstract(参考訳): 認知エージェントは、AIシステムの安全性、信頼性、協力のための課題である。
エージェントが目標を達成するために騙される可能性のある問題(例えば、言語モデルを用いた実験では、真理として評価されるという目標)に焦点を当てる。
ゲーム理論とシンボリックaiに関する文献には、まだ多くのデセプションの定義があるが、ゲームにおける学習エージェントに対するデセプションの包括的な理論は存在しない。
本稿では,構造因果ゲームにおける騙しの形式的定義を哲学文献に基礎を置き,現実世界の機械学習システムに適用する。
いくつかの例と結果から、私たちの形式的定義は、騙しの哲学的・常識的な意味と一致していることがわかる。
私たちの主な技術的成果は、騙しのグラフィカルな基準を提供することです。
実験により,これらの結果は強化学習エージェントと言語モデルの誤読軽減に有効であることが示された。
関連論文リスト
- Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - The Reasons that Agents Act: Intention and Instrumental Goals [24.607124467778036]
AIエージェントに適用可能な、普遍的に受け入れられる意図の理論は存在しない。
我々は,エージェントが決定を下す理由に関して,エージェントが行動する意図を運用する。
我々の定義は、意図という直感的な概念を捉え、過去の作業によって設定されたデシダラタを満足させる。
論文 参考訳(メタデータ) (2024-02-11T14:39:40Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Existence and perception as the basis of AGI (Artificial General
Intelligence) [0.0]
AIとは異なり、AGIは意味で操作すべきである。AIと区別するのはそれだ。
人間の思考をエミュレートするAGIにとって、この能力は不可欠である。
意味」の概念を定義する多くの試みには、非常に大きな欠点がある。
論文 参考訳(メタデータ) (2022-01-30T14:06:43Z) - The Who in XAI: How AI Background Shapes Perceptions of AI Explanations [61.49776160925216]
私たちは、2つの異なるグループ、つまりAIのバックグラウンドを持つ人々といない人たちの、異なるタイプのAI説明に対する理解について、混合手法による研究を行います。
その結果,(1) 両群は異なる理由から不合理な数に対する信頼を示し,(2) それぞれの群は意図した設計以上の異なる説明に価値を見出した。
論文 参考訳(メタデータ) (2021-07-28T17:32:04Z) - Intensional Artificial Intelligence: From Symbol Emergence to
Explainable and Empathetic AI [0.0]
我々は、説明可能な人工知能は、その決定の根拠を持ち、観察された行動の目的を推測し、聴衆が理解し、意図する文脈でその決定を説明することができるべきであると論じる。
理性は自然言語を必要とし、知覚状態のコーディングとデコードを行う。
言語を習得するために、エージェントは言語自体ではなく、言語が記述する世界をモデル化すべきという意味論を提案します。
論文 参考訳(メタデータ) (2021-04-23T13:13:46Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Deceptive AI Explanations: Creation and Detection [3.197020142231916]
我々は、AIモデルを用いて、偽りの説明を作成し、検出する方法について検討する。
実験的な評価として,GradCAMによるテキスト分類と説明の変更に着目した。
被験者200名を対象に, 偽装説明がユーザに与える影響について検討した。
論文 参考訳(メタデータ) (2020-01-21T16:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。