論文の概要: Among Us: A Sandbox for Agentic Deception
- arxiv url: http://arxiv.org/abs/2504.04072v1
- Date: Sat, 05 Apr 2025 06:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 06:09:18.034163
- Title: Among Us: A Sandbox for Agentic Deception
- Title(参考訳): アメリカ人の間で:エージェントの偽装のためのサンドボックス
- Authors: Satvik Golechha, Adrià Garriga-Alonso,
- Abstract要約: Usはテキストベースのソーシャル推論ゲーム環境である。
LLMエージェントは、考え、話し、他のエージェントや人間と行動しながら、自然に人間のスタイルの騙しを示す。
そこで我々は,AIの安全性技術を用いて,嘘や騙しを検知する手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 1.1893676124374688
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Studying deception in AI agents is important and difficult due to the lack of model organisms and sandboxes that elicit the behavior without asking the model to act under specific conditions or inserting intentional backdoors. Extending upon $\textit{AmongAgents}$, a text-based social-deduction game environment, we aim to fix this by introducing Among Us as a rich sandbox where LLM-agents exhibit human-style deception naturally while they think, speak, and act with other agents or humans. We introduce Deception ELO as an unbounded measure of deceptive capability, suggesting that frontier models win more because they're better at deception, not at detecting it. We evaluate the effectiveness of AI safety techniques (LLM-monitoring of outputs, linear probes on various datasets, and sparse autoencoders) for detecting lying and deception in Among Us, and find that they generalize very well out-of-distribution. We open-source our sandbox as a benchmark for future alignment research and hope that this is a good testbed to improve safety techniques to detect and remove agentically-motivated deception, and to anticipate deceptive abilities in LLMs.
- Abstract(参考訳): モデル生物やサンドボックスが不足しているため、特定の条件下でモデルに行動するよう要求したり、意図的なバックドアを挿入したりすることなく行動を引き起こすため、AIエージェントの騙しの研究は重要かつ困難である。
テキストベースのソーシャル推論ゲーム環境である$\textit{AmongAgents}$に拡張することで、私たちは、LLMエージェントが考え、話し、他のエージェントや人間と行動しながら自然に人間のスタイルの騙しを見せるようなリッチなサンドボックスとして、Popper Usを導入することで、この問題を修正することを目指している。
Deception ELOを非有界な偽装能力の尺度として紹介し、フロンティアモデルの方が偽装能力に優れており、検出に適していないことを示唆している。
我々は,AIの安全性技術(出力のLLMモニタリング,各種データセット上の線形プローブ,スパースオートエンコーダ)の有効性を評価し,その妥当性を検証した。
将来的なアライメント研究のためのベンチマークとして,サンドボックスをオープンソースとして公開し,エージェントによって動機づけられた偽装の検出と除去,およびLLMにおける偽装能力の予測のための安全技術の改善を期待する。
関連論文リスト
- Bayesian Social Deduction with Graph-Informed Language Models [3.7540464038118633]
社会的推論は、大きな言語モデルにとって難しい課題である。
本稿では,信念推論を構造化確率モデルに外部化するハイブリッド推論フレームワークを提案する。
提案手法はエージェント・エージェント・プレイにおけるより大きなモデルとの競合性能を実現する。
論文 参考訳(メタデータ) (2025-06-21T18:45:28Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [55.044159987218436]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Propaganda via AI? A Study on Semantic Backdoors in Large Language Models [7.282200564983221]
セマンティックバックドアは少量の毒コーパスで埋め込むことができる。
本稿では,意味論的エントロピーとモデル間の整合性解析を組み合わせたブラックボックス検出フレームワークであるRAVENを紹介する。
未検出セマンティックバックドアの実証評価
論文 参考訳(メタデータ) (2025-04-15T16:43:15Z) - Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。
我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。
試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文 参考訳(メタデータ) (2025-04-10T15:07:10Z) - Fooling LLM graders into giving better grades through neural activity guided adversarial prompting [26.164839501935973]
本稿では,AI評価システムにおけるそのようなバイアスを明らかにするための体系的手法を提案する。
我々のアプローチはまず、歪んだ決定結果を予測する隠れた神経活動パターンを特定する。
この組み合わせによって、大きな言語モデルグレーダーを効果的に騙して、人間よりもはるかに高いグレードを割り当てることができることを実証する。
論文 参考訳(メタデータ) (2024-12-17T19:08:22Z) - Towards Action Hijacking of Large Language Model-based Agent [39.19067800226033]
我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。
提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Aligning AI Agents via Information-Directed Sampling [20.617552198581024]
バンドアライメントの問題は、環境と人間と相互作用することで、長期にわたる期待される報酬を最大化することである。
本研究では,これらのトレードオフを,Beta-Bernoulli banditに類似した玩具帯状アライメント問題において理論的,実証的に検討する。
我々は、現在の慣行を反映した単純な探索アルゴリズムと、トンプソンサンプリングのような有望なアルゴリズムの両方が、この問題に対する許容できる解決策を提供していないことを実証する。
論文 参考訳(メタデータ) (2024-10-18T18:23:41Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Deception in Reinforced Autonomous Agents [30.510998478048723]
大型言語モデル(LLM)をベースとしたエージェントが微妙な騙しを行う能力について検討する。
この行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
2つのLDMが対立する役割を担っている立法環境を模倣した敵対的テストベッドを構築した。
論文 参考訳(メタデータ) (2024-05-07T13:55:11Z) - Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Beyond Labeling Oracles: What does it mean to steal ML models? [52.63413852460003]
モデル抽出攻撃は、クエリアクセスのみで訓練されたモデルを盗むように設計されている。
モデル抽出攻撃の成功に影響を及ぼす要因について検討する。
我々は,ME攻撃の敵の目標を再定義するようコミュニティに促した。
論文 参考訳(メタデータ) (2023-10-03T11:10:21Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - Policy Mirror Ascent for Efficient and Independent Learning in Mean
Field Games [35.86199604587823]
平均場ゲームは対称および匿名の$N$-playerゲームに対して近似的なナッシュ均衡を得るための理論的ツールとして使われてきた。
ポリシーミラーを実行する$N$エージェントは、$widetildemathcalO(varepsilon-2)$サンプル内で正規化ゲームのナッシュ平衡に収束することを示す。
論文 参考訳(メタデータ) (2022-12-29T20:25:18Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Estimating $\alpha$-Rank by Maximizing Information Gain [26.440923373794444]
ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。
本稿では、このようなシナリオでうまく機能するように設計された人気のゲーム理論ソリューションコンセプトである$alpha$-rankに焦点を当てます。
本稿では,ResponseGraphUCBの信頼区間基準と比較し,情報ゲインの利点を示す。
論文 参考訳(メタデータ) (2021-01-22T15:46:35Z) - Munchausen Reinforcement Learning [50.396037940989146]
ブートストラップは強化学習(RL)の中核的なメカニズムである
この方法でDQN(Deep Q-Network)を少し修正することで,Atariゲーム上の分散手法と競合するエージェントが得られることを示す。
ボンネットの下で何が起こるかという理論的な知見を強く提供します -- 暗黙のクルバック・リーブラー正規化とアクションギャップの増加です。
論文 参考訳(メタデータ) (2020-07-28T18:30:23Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。