論文の概要: LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models
- arxiv url: http://arxiv.org/abs/2603.06874v1
- Date: Fri, 06 Mar 2026 20:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.296012
- Title: LieCraft: A Multi-Agent Framework for Evaluating Deceptive Capabilities in Language Models
- Title(参考訳): LieCraft: 言語モデルにおける知覚能力を評価するためのマルチエージェントフレームワーク
- Authors: Matthew Lyle Olson, Neale Ratzlaff, Musashi Hinck, Tri Nguyen, Vasudev Lal, Joseph Campbell, Simon Stepputtis, Shao-Yen Tseng,
- Abstract要約: 大きな言語モデル(LLM)は、優れた汎用能力を示すと同時に、深刻な安全性のリスクももたらします。
LLM偽造を計測するための新しい評価フレームワークであるLieCraftとサンドボックスについて紹介する。
- 参考スコア(独自算出の注目度): 22.928188725128138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit impressive general-purpose capabilities but also introduce serious safety risks, particularly the potential for deception as models acquire increased agency and human oversight diminishes. In this work, we present LieCraft: a novel evaluation framework and sandbox for measuring LLM deception that addresses key limitations of prior game-based evaluations. At its core, LieCraft is a novel multiplayer hidden-role game in which players select an ethical alignment and execute strategies over a long time-horizon to accomplish missions. Cooperators work together to solve event challenges and expose bad actors, while Defectors evade suspicion while secretly sabotaging missions. To enable real-world relevance, we develop 10 grounded scenarios such as childcare, hospital resource allocation, and loan underwriting that recontextualize the underlying mechanics in ethically significant, high-stakes domains. We ensure balanced gameplay in LieCraft through careful design of game mechanics and reward structures that incentivize meaningful strategic choices while eliminating degenerate strategies. Beyond the framework itself, we report results from 12 state-of-the-art LLMs across three behavioral axes: propensity to defect, deception skill, and accusation accuracy. Our findings reveal that despite differences in competence and overall alignment, all models are willing to act unethically, conceal their intentions, and outright lie to pursue their goals.
- Abstract(参考訳): 大規模言語モデル(LLM)は、目覚ましい汎用能力を示す一方で、深刻な安全性リスク、特にモデルが代理店を買収し、人間の監視が低下する可能性も伴う。
本稿では,従来のゲームベース評価の重要な制約に対処する,LSMの偽装を計測するための新しい評価フレームワークとサンドボックスであるLieCraftを紹介する。
リークラフトは、プレイヤーが倫理的アライメントを選択し、ミッションを達成するために長い時間をかけて戦略を実行する、新しいマルチプレイヤー隠れロールゲームである。
協力者は協力してイベントの課題を解決し、悪役を露呈し、デフェクターは秘密裏に任務を妨害しながら疑念を逃れる。
現実の関連性を実現するため、我々は、倫理的に重要な高利得領域において基盤となる仕組みを再構築する、育児、病院資源配分、ローン引受けといった10の根拠のあるシナリオを開発する。
We ensure balanced gameplay in LieCraft through careful design of game mechanics and reward structures that incentivize significant strategy choices while eliminate degenerate strategy。
フレームワーク自体以外にも,欠陥の正当性,偽装スキル,告発精度という,3つの行動軸にまたがる12の最先端LCMの結果が報告されている。
我々の研究結果は、能力と全体的な整合性の違いにもかかわらず、すべてのモデルは非倫理的に行動し、意図を隠蔽し、その目標を追求することに完全に嘘をつくことを明らかにしている。
関連論文リスト
- How Far Are LLMs from Professional Poker Players? Revisiting Game-Theoretic Reasoning with Agentic Tool Use [52.394999779049606]
大規模言語モデル(LLMs)は、ハイテイクなドメインにますます適用されています。
LLMは従来のアルゴリズムと競合しない。
ツール統合推論フレームワークであるToolPokerを提案する。
論文 参考訳(メタデータ) (2026-01-31T05:45:25Z) - Strategic Intelligence in Large Language Models: Evidence from evolutionary Game Theory [0.0]
我々は,Large Language Models (LLMs) に対する説得力のある支持証拠を提示する。
私たちは、先進的なフロンティアAI企業OpenAI、Google、およびAnthropicのエージェントに対する標準的な戦略を練り、進化的なIDDトーナメントを初めて実施します。
以上の結果から, LLMは競争力が高く, 持続的であり, 複雑な生態系で増殖することさえあることが示唆された。
論文 参考訳(メタデータ) (2025-07-03T13:45:02Z) - PokéAI: A Goal-Generating, Battle-Optimizing Multi-agent System for Pokemon Red [4.558478169296784]
Pok'eAIは,Pok'emon Redを通じて自律的に再生・進行するように設計された,テキストベースでマルチエージェントな大規模言語モデル(LLM)フレームワークである。
本システムでは,3つの専門エージェント(Planning, Execution, Critique-each)と,独自のメモリバンク,役割,スキルセットで構成されている。
論文 参考訳(メタデータ) (2025-06-30T10:09:13Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [64.47869632167284]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - Winning at All Cost: A Small Environment for Eliciting Specification Gaming Behaviors in Large Language Models [0.0]
本研究では,フロンティア大規模言語モデル(LLM)が,不可能な状況に直面した場合,いかにして「システム」をプレイできるかを明らかにする。
そこで本研究では, テキストシミュレーション手法を用いて, t-tac-toeシナリオを用いた3つのLLMを提示した。
より新しく、推論にフォーカスしたo3-miniモデルは、システムの脆弱性を悪用する確率の2倍近くを示しました。
論文 参考訳(メタデータ) (2025-05-07T07:59:56Z) - Dynamics of Adversarial Attacks on Large Language Model-Based Search Engines [7.260315265550391]
検索エンジンにおけるランキング操作攻撃のダイナミクスについて検討する。
システムダイナミクスの転換点を同定し、プレイヤーが前方を向いているとき、協調が維持される可能性がより高いことを示す。
私たちの研究は、彼らの脆弱性を理解し緩和するための理論的基盤と実践的な洞察を提供します。
論文 参考訳(メタデータ) (2025-01-01T06:23:26Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。