論文の概要: Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation
- arxiv url: http://arxiv.org/abs/2405.04325v1
- Date: Tue, 7 May 2024 13:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:00:34.859144
- Title: Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation
- Title(参考訳): 強化された自律エージェントの認知--法制化における非伝統的なラビットハット・トリック-
- Authors: Atharvan Dogra, Ameet Deshpande, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran,
- Abstract要約: 大規模言語モデル(LLM)の最近の発展は、それらとその上に構築された自律エージェントに対する安全上の懸念を提起している。
騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。
我々は、言語哲学と認知心理学の理論に基づいて、強化学習のセットアップを通じて、認知能力の発達を示す。
- 参考スコア(独自算出の注目度): 28.885630980534145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in large language models (LLMs), while offering a powerful foundation for developing natural language agents, raise safety concerns about them and the autonomous agents built upon them. Deception is one potential capability of AI agents of particular concern, which we refer to as an act or statement that misleads, hides the truth, or promotes a belief that is not true in its entirety or in part. We move away from the conventional understanding of deception through straight-out lying, making objective selfish decisions, or giving false information, as seen in previous AI safety research. We target a specific category of deception achieved through obfuscation and equivocation. We broadly explain the two types of deception by analogizing them with the rabbit-out-of-hat magic trick, where (i) the rabbit either comes out of a hidden trap door or (ii) (our focus) the audience is completely distracted to see the magician bring out the rabbit right in front of them using sleight of hand or misdirection. Our novel testbed framework displays intrinsic deception capabilities of LLM agents in a goal-driven environment when directed to be deceptive in their natural language generations in a two-agent adversarial dialogue system built upon the legislative task of "lobbying" for a bill. Along the lines of a goal-driven environment, we show developing deceptive capacity through a reinforcement learning setup, building it around the theories of language philosophy and cognitive psychology. We find that the lobbyist agent increases its deceptive capabilities by ~ 40% (relative) through subsequent reinforcement trials of adversarial interactions, and our deception detection mechanism shows a detection capability of up to 92%. Our results highlight potential issues in agent-human interaction, with agents potentially manipulating humans towards its programmed end-goal.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の発展は、自然言語エージェントを開発するための強力な基盤を提供しながら、それらとその上に構築された自律エージェントに対する安全性の懸念を高めている。
騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。
我々は、以前のAI安全研究で見られるように、嘘の従来の理解から脱却し、客観的な自尊心のある決定をしたり、誤った情報を与える。
我々は、難読化と公平化によって達成された特定の偽りのカテゴリーをターゲットにしている。
我々は、この2種類の騙しを、ウサギの魔法のトリックと類似させることで、広く説明します。
(i)隠れた罠戸からウサギが出てくるか
(注)手や方向を間違えて目の前でウサギが出てくるのを見るのに、観客は完全に気を散らしている。
筆者らの新しいテストベッド・フレームワークは、法案の「ロビー活動」という立法作業に基づいて構築された2エージェント対対話システムにおいて、LLMエージェントが自然言語世代を欺くように指示された場合に、目標駆動環境において本質的な偽装能力を示す。
目標駆動型環境のラインに沿って,言語哲学と認知心理学の理論に基づいて,強化学習のセットアップを通じて,認知能力の発達を示す。
また,ロビイスト剤は,その後の対人関係の強化試験を通じて,約40%(相対的)の偽装能力を増強し,その偽装検出機構は最大92%の検知能力を示した。
本研究は, エージェント・ヒューマン・インタラクションの潜在的な課題を浮き彫りにし, エージェントがプログラムされたエンドゴールに向けて人間を操作する可能性を示唆した。
関連論文リスト
- Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。
本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。
そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文 参考訳(メタデータ) (2025-02-05T10:29:54Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents [27.10147264744531]
マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。
エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。
我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
論文 参考訳(メタデータ) (2024-09-13T17:41:12Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。
我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。
評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。