論文の概要: Deception in Reinforced Autonomous Agents
- arxiv url: http://arxiv.org/abs/2405.04325v2
- Date: Fri, 04 Oct 2024 10:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:14.545148
- Title: Deception in Reinforced Autonomous Agents
- Title(参考訳): 強化された自律エージェントの誤認
- Authors: Atharvan Dogra, Krishna Pillutla, Ameet Deshpande, Ananya B Sai, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran,
- Abstract要約: 大型言語モデル(LLM)をベースとしたエージェントが微妙な騙しを行う能力について検討する。
この行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
2つのLDMが対立する役割を担っている立法環境を模倣した敵対的テストベッドを構築した。
- 参考スコア(独自算出の注目度): 30.510998478048723
- License:
- Abstract: We explore the ability of large language model (LLM)-based agents to engage in subtle deception such as strategically phrasing and intentionally manipulating information to misguide and deceive other agents. This harmful behavior can be hard to detect, unlike blatant lying or unintentional hallucination. We build an adversarial testbed mimicking a legislative environment where two LLMs play opposing roles: a corporate *lobbyist* proposing amendments to bills that benefit a specific company while evading a *critic* trying to detect this deception. We use real-world legislative bills matched with potentially affected companies to ground these interactions. Our results show that LLM lobbyists initially exhibit limited deception against strong LLM critics which can be further improved through simple verbal reinforcement, significantly enhancing their deceptive capabilities, and increasing deception rates by up to 40 points. This highlights the risk of autonomous agents manipulating other agents through seemingly neutral language to attain self-serving goals.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとしたエージェントが,戦略的な表現や意図的な情報操作など,微妙な騙しを行なおうとする能力について検討する。
この有害な行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
企業*ロビイスト*は、この詐欺を検知しようとする*批判*を避けつつ、特定の会社に利益をもたらす法案の修正を提案します。
私たちは、影響を受ける可能性のある企業と合致する現実世界の立法法案を使って、これらのインタラクションを基礎にしています。
以上の結果から,LLMロビイストは,単純な言語的強化によってさらに改善できるような強いLLM批判者に対して,当初は限定的な騙し傾向を示し,その騙し能力を大幅に向上させ,最大40ポイントまで騙し率を上昇させることが示唆された。
これは、自律エージェントが中立的な言語を通して他のエージェントを操作することで、自己維持目標を達成するリスクを強調している。
関連論文リスト
- Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。
本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。
そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文 参考訳(メタデータ) (2025-02-05T10:29:54Z) - Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。
実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文 参考訳(メタデータ) (2025-01-17T17:40:12Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents [27.10147264744531]
マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。
エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。
我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
論文 参考訳(メタデータ) (2024-09-13T17:41:12Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。
我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。
評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。