Fugu-MT 論文翻訳(概要): Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation

論文の概要: Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation

arxiv url: http://arxiv.org/abs/2405.04325v1
Date: Tue, 7 May 2024 13:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 14:00:34.859144
Title: Deception in Reinforced Autonomous Agents: The Unconventional Rabbit Hat Trick in Legislation
Title（参考訳）: 強化された自律エージェントの認知--法制化における非伝統的なラビットハット・トリック-
Authors: Atharvan Dogra, Ameet Deshpande, John Nay, Tanmay Rajpurohit, Ashwin Kalyan, Balaraman Ravindran,
Abstract要約: 大規模言語モデル(LLM)の最近の発展は、それらとその上に構築された自律エージェントに対する安全上の懸念を提起している。騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。我々は、言語哲学と認知心理学の理論に基づいて、強化学習のセットアップを通じて、認知能力の発達を示す。
参考スコア（独自算出の注目度）: 28.885630980534145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent developments in large language models (LLMs), while offering a powerful foundation for developing natural language agents, raise safety concerns about them and the autonomous agents built upon them. Deception is one potential capability of AI agents of particular concern, which we refer to as an act or statement that misleads, hides the truth, or promotes a belief that is not true in its entirety or in part. We move away from the conventional understanding of deception through straight-out lying, making objective selfish decisions, or giving false information, as seen in previous AI safety research. We target a specific category of deception achieved through obfuscation and equivocation. We broadly explain the two types of deception by analogizing them with the rabbit-out-of-hat magic trick, where (i) the rabbit either comes out of a hidden trap door or (ii) (our focus) the audience is completely distracted to see the magician bring out the rabbit right in front of them using sleight of hand or misdirection. Our novel testbed framework displays intrinsic deception capabilities of LLM agents in a goal-driven environment when directed to be deceptive in their natural language generations in a two-agent adversarial dialogue system built upon the legislative task of "lobbying" for a bill. Along the lines of a goal-driven environment, we show developing deceptive capacity through a reinforcement learning setup, building it around the theories of language philosophy and cognitive psychology. We find that the lobbyist agent increases its deceptive capabilities by ~ 40% (relative) through subsequent reinforcement trials of adversarial interactions, and our deception detection mechanism shows a detection capability of up to 92%. Our results highlight potential issues in agent-human interaction, with agents potentially manipulating humans towards its programmed end-goal.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の発展は、自然言語エージェントを開発するための強力な基盤を提供しながら、それらとその上に構築された自律エージェントに対する安全性の懸念を高めている。騙しは、特定の関心事のAIエージェントの潜在的な能力の1つであり、我々は、真実を誤解させたり、隠したり、その全体または一部において真実でない信念を促進する行為または声明である。我々は、以前のAI安全研究で見られるように、嘘の従来の理解から脱却し、客観的な自尊心のある決定をしたり、誤った情報を与える。我々は、難読化と公平化によって達成された特定の偽りのカテゴリーをターゲットにしている。我々は、この2種類の騙しを、ウサギの魔法のトリックと類似させることで、広く説明します。 (i)隠れた罠戸からウサギが出てくるか (注)手や方向を間違えて目の前でウサギが出てくるのを見るのに、観客は完全に気を散らしている。筆者らの新しいテストベッド・フレームワークは、法案の「ロビー活動」という立法作業に基づいて構築された2エージェント対対話システムにおいて、LLMエージェントが自然言語世代を欺くように指示された場合に、目標駆動環境において本質的な偽装能力を示す。目標駆動型環境のラインに沿って,言語哲学と認知心理学の理論に基づいて,強化学習のセットアップを通じて,認知能力の発達を示す。また,ロビイスト剤は,その後の対人関係の強化試験を通じて,約40%(相対的)の偽装能力を増強し,その偽装検出機構は最大92%の検知能力を示した。本研究は, エージェント・ヒューマン・インタラクションの潜在的な課題を浮き彫りにし, エージェントがプログラムされたエンドゴールに向けて人間を操作する可能性を示唆した。

関連論文リスト

SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。 SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文参考訳（メタデータ） (2025-07-10T05:38:15Z)
When Persuasion Overrides Truth in Multi-Agent LLM Debates: Introducing a Confidence-Weighted Persuasion Override Rate (CW-POR) [0.46040036610482665]
多くの実世界のシナリオでは、1つの大言語モデル(LLM)が矛盾する主張に遭遇する可能性がある。 1つのLCMベースのエージェントは、TruthfulQAから現実的な回答を提供し、もう1つのエージェントは、虚偽を積極的に擁護し、同じアーキテクチャが裁判官として機能する。信頼度重み付き説得率(CW-POR)を導入し、裁判官がどの程度の頻度で騙されるかだけでなく、その誤った選択をいかに強く信じるかを捉える。
論文参考訳（メタデータ） (2025-04-01T02:45:02Z)
The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement [49.687224320842105]
大規模言語モデル(LLM)は、最近、テキストベースのアシスタントから、計画、推論、反復的な行動改善が可能な自律エージェントへと変化した。本研究では,環境を探索するアクターモデルと,詳細な自然言語フィードバックを生成する批評家モデルからなる,新しい2人プレイヤフレームワークであるCGIを紹介する。
論文参考訳（メタデータ） (2025-03-20T10:42:33Z)
Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
大規模言語モデル(LLM)は、明示的なプロンプトなしでも、偽りの振る舞いを理解し、利用することができる。これらの特徴を損なう「偽装攻撃」を導入し、悪用されたら現実世界で深刻な結果をもたらす可能性のある脆弱性を明らかにします。本研究では,高用量ドメインやイデオロギーに荷担した被験者においても,そのような偽装が有効であることを示す。
論文参考訳（メタデータ） (2025-02-12T11:02:59Z)
Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文参考訳（メタデータ） (2025-02-05T10:29:54Z)
Know Your Mistakes: Towards Preventing Overreliance on Task-Oriented Conversational AI Through Accountability Modeling [9.305763502526833]
本稿では,ユーザ過度に対処するタスク指向対話エージェントのための説明責任モデルを提案する。実験結果から,提案手法はAIエージェントエラーの信頼性の高い推定を可能にするだけでなく,デコーダがより正確な動作を生成することを示唆している。
論文参考訳（メタデータ） (2025-01-17T17:40:12Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Identifying and Addressing Delusions for Target-Directed Decision-Making [81.22463009144987]
ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。これらの行動は、トレーニングに関する不適切な設計から生じる妄想の結果であることを示す。我々は、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。
論文参考訳（メタデータ） (2024-10-09T17:35:25Z)
AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents [27.10147264744531]
マルチターン対話環境において,言語エージェントが実効性と実効性に相反するシナリオをナビゲートする方法について検討した。エージェントの反応を評価するために,心理文献にヒントを得た真正性検知装置を開発した。我々の実験は、すべてのモデルが50%未満の真理であることを示したが、真理性と目標達成率(実用性)はモデルによって異なる。
論文参考訳（メタデータ） (2024-09-13T17:41:12Z)
Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。 InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文参考訳（メタデータ） (2024-07-16T15:24:44Z)
DebUnc: Mitigating Hallucinations in Large Language Model Agent Communication with Uncertainty Estimations [52.242449026151846]
DebUncは、不確実性メトリクスを使用してエージェントの信頼性レベルを評価するマルチエージェントの議論フレームワークである。我々は、信頼度に基づいてトークン重量を調整するために注意機構を適用した。評価の結果,注意に基づく手法は特に有効であることが示唆された。
論文参考訳（メタデータ） (2024-07-08T22:15:01Z)
LLM Whisperer: An Inconspicuous Attack to Bias LLM Responses [28.49203239329941]
命令における微妙なシノニム置換は、LLMが目標概念に言及する可能性(最大78%)を高めることができることを示す。信頼できない関係者からのプロンプトの使用に対する警告の実施を推奨する。
論文参考訳（メタデータ） (2024-06-07T08:54:55Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
Don't Go To Extremes: Revealing the Excessive Sensitivity and Calibration Limitations of LLMs in Implicit Hate Speech Detection [29.138463029748547]
本稿では,暗黙のヘイトスピーチを検出し,その応答に自信を表現できる大規模言語モデルを提案する。 1) LLMは, 公平性問題を引き起こす可能性のあるグループやトピックに対して過度な感受性を示し, ヘイトスピーチとして良心的発言を誤分類する。
論文参考訳（メタデータ） (2024-02-18T00:04:40Z)
Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation [80.126717170151]
本研究では,複雑なアバロンゲームを用いて,認知環境におけるLSMの可能性を探究する。本稿では,LLMの偽情報識別・対策能力を高めるための新しいフレームワークRecursive Contemplation(ReCon)を提案する。
論文参考訳（メタデータ） (2023-10-02T16:27:36Z)
Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文参考訳（メタデータ） (2023-07-31T09:27:01Z)
Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。 1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文参考訳（メタデータ） (2023-05-31T10:08:37Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。