論文の概要: Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation
- arxiv url: http://arxiv.org/abs/2405.04325v1
- Date: Tue, 7 May 2024 13:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:00:34.859144
- Title: Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation
- Title(参考訳): 強化された自律エージェントの認知--法制化における非伝統的なラビットハット・トリック-
- Authors: Atharvan Dogra, Ameet Deshpande, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran,
- Abstract要約: 大規模言語モデル(LLM)の最近の発展は、それらとその上に構築された自律エージェントに対する安全上の懸念を提起している。
騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。
我々は、言語哲学と認知心理学の理論に基づいて、強化学習のセットアップを通じて、認知能力の発達を示す。
- 参考スコア(独自算出の注目度): 28.885630980534145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large language models (LLMs), while offering a powerful foundation for developing natural language agents, raise safety concerns about them and the autonomous agents built upon them. Deception is one potential capability of AI agents of particular concern, which we refer to as an act or statement that misleads, hides the truth, or promotes a belief that is not true in its entirety or in part. We move away from the conventional understanding of deception through straight-out lying, making objective selfish decisions, or giving false information, as seen in previous AI safety research. We target a specific category of deception achieved through obfuscation and equivocation. We broadly explain the two types of deception by analogizing them with the rabbit-out-of-hat magic trick, where (i) the rabbit either comes out of a hidden trap door or (ii) (our focus) the audience is completely distracted to see the magician bring out the rabbit right in front of them using sleight of hand or misdirection. Our novel testbed framework displays intrinsic deception capabilities of LLM agents in a goal-driven environment when directed to be deceptive in their natural language generations in a two-agent adversarial dialogue system built upon the legislative task of "lobbying" for a bill. Along the lines of a goal-driven environment, we show developing deceptive capacity through a reinforcement learning setup, building it around the theories of language philosophy and cognitive psychology. We find that the lobbyist agent increases its deceptive capabilities by ~ 40% (relative) through subsequent reinforcement trials of adversarial interactions, and our deception detection mechanism shows a detection capability of up to 92%. Our results highlight potential issues in agent-human interaction, with agents potentially manipulating humans towards its programmed end-goal.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の発展は、自然言語エージェントを開発するための強力な基盤を提供しながら、それらとその上に構築された自律エージェントに対する安全性の懸念を高めている。
騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。
我々は、以前のAI安全研究で見られるように、嘘の従来の理解から脱却し、客観的な自尊心のある決定をしたり、誤った情報を与える。
我々は、難読化と公平化によって達成された特定の偽りのカテゴリーをターゲットにしている。
我々は、この2種類の騙しを、ウサギの魔法のトリックと類似させることで、広く説明します。
(i)隠れた罠戸からウサギが出てくるか
(注)手や方向を間違えて目の前でウサギが出てくるのを見るのに、観客は完全に気を散らしている。
筆者らの新しいテストベッド・フレームワークは、法案の「ロビー活動」という立法作業に基づいて構築された2エージェント対対話システムにおいて、LLMエージェントが自然言語世代を欺くように指示された場合に、目標駆動環境において本質的な偽装能力を示す。
目標駆動型環境のラインに沿って,言語哲学と認知心理学の理論に基づいて,強化学習のセットアップを通じて,認知能力の発達を示す。
また,ロビイスト剤は,その後の対人関係の強化試験を通じて,約40%(相対的)の偽装能力を増強し,その偽装検出機構は最大92%の検知能力を示した。
本研究は, エージェント・ヒューマン・インタラクションの潜在的な課題を浮き彫りにし, エージェントがプログラムされたエンドゴールに向けて人間を操作する可能性を示唆した。
関連論文リスト
- Identifying and Addressing Delusions for Target-Directed Decision-Making [81.22463009144987]
ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。
これらの行動は、トレーニングに関する不適切な設計から生じる妄想の結果であることを示す。
我々は、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents [27.10147264744531]
マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。
エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。
我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
論文 参考訳(メタデータ) (2024-09-13T17:41:12Z) - DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。
我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。
評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses [28.49203239329941]
命令における微妙なシノニム置換は、LLMが目標概念に言及する可能性(最大78%)を高めることができることを示す。
信頼できない関係者からのプロンプトの使用に対する警告の実施を推奨する。
論文 参考訳(メタデータ) (2024-06-07T08:54:55Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。