論文の概要: Deception in Reinforced Autonomous Agents
- arxiv url: http://arxiv.org/abs/2405.04325v2
- Date: Fri, 04 Oct 2024 10:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 18:20:14.545148
- Title: Deception in Reinforced Autonomous Agents
- Title(参考訳): 強化された自律エージェントの誤認
- Authors: Atharvan Dogra, Krishna Pillutla, Ameet Deshpande, Ananya B Sai, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran,
- Abstract要約: 大型言語モデル(LLM)をベースとしたエージェントが微妙な騙しを行う能力について検討する。
この行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
2つのLDMが対立する役割を担っている立法環境を模倣した敵対的テストベッドを構築した。
- 参考スコア(独自算出の注目度): 30.510998478048723
- License:
- Abstract: We explore the ability of large language model (LLM)-based agents to engage in subtle deception such as strategically phrasing and intentionally manipulating information to misguide and deceive other agents. This harmful behavior can be hard to detect, unlike blatant lying or unintentional hallucination. We build an adversarial testbed mimicking a legislative environment where two LLMs play opposing roles: a corporate *lobbyist* proposing amendments to bills that benefit a specific company while evading a *critic* trying to detect this deception. We use real-world legislative bills matched with potentially affected companies to ground these interactions. Our results show that LLM lobbyists initially exhibit limited deception against strong LLM critics which can be further improved through simple verbal reinforcement, significantly enhancing their deceptive capabilities, and increasing deception rates by up to 40 points. This highlights the risk of autonomous agents manipulating other agents through seemingly neutral language to attain self-serving goals.
- Abstract(参考訳): 大規模言語モデル(LLM)をベースとしたエージェントが,戦略的な表現や意図的な情報操作など,微妙な騙しを行なおうとする能力について検討する。
この有害な行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
企業*ロビイスト*は、この詐欺を検知しようとする*批判*を避けつつ、特定の会社に利益をもたらす法案の修正を提案します。
私たちは、影響を受ける可能性のある企業と合致する現実世界の立法法案を使って、これらのインタラクションを基礎にしています。
以上の結果から,LLMロビイストは,単純な言語的強化によってさらに改善できるような強いLLM批判者に対して,当初は限定的な騙し傾向を示し,その騙し能力を大幅に向上させ,最大40ポイントまで騙し率を上昇させることが示唆された。
これは、自律エージェントが中立的な言語を通して他のエージェントを操作することで、自己維持目標を達成するリスクを強調している。
関連論文リスト
- Identifying and Addressing Delusions for Target-Directed Decision-Making [81.22463009144987]
ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。
これらの行動は、トレーニングに関する不適切な設計から生じる妄想の結果であることを示す。
我々は、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents [27.10147264744531]
マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。
エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。
我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
論文 参考訳(メタデータ) (2024-09-13T17:41:12Z) - DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。
我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。
評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses [28.49203239329941]
命令における微妙なシノニム置換は、LLMが目標概念に言及する可能性(最大78%)を高めることができることを示す。
信頼できない関係者からのプロンプトの使用に対する警告の実施を推奨する。
論文 参考訳(メタデータ) (2024-06-07T08:54:55Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。
1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文 参考訳(メタデータ) (2024-02-18T00:04:40Z) - Avalon's Game of Thoughts: Battle Against Deception through Recursive
Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。
本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:27:36Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。