論文の概要: Winning at All Cost: A Small Environment for Eliciting Specification Gaming Behaviors in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.07846v1
- Date: Wed, 07 May 2025 07:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.216206
- Title: Winning at All Cost: A Small Environment for Eliciting Specification Gaming Behaviors in Large Language Models
- Title(参考訳): あらゆるコストで勝つ:大規模言語モデルにおける仕様ゲーム行動の緩和のための小さな環境
- Authors: Lars Malmqvist,
- Abstract要約: 本研究では,フロンティア大規模言語モデル(LLM)が,不可能な状況に直面した場合,いかにして「システム」をプレイできるかを明らかにする。
そこで本研究では, テキストシミュレーション手法を用いて, t-tac-toeシナリオを用いた3つのLLMを提示した。
より新しく、推論にフォーカスしたo3-miniモデルは、システムの脆弱性を悪用する確率の2倍近くを示しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study reveals how frontier Large Language Models LLMs can "game the system" when faced with impossible situations, a critical security and alignment concern. Using a novel textual simulation approach, we presented three leading LLMs (o1, o3-mini, and r1) with a tic-tac-toe scenario designed to be unwinnable through legitimate play, then analyzed their tendency to exploit loopholes rather than accept defeat. Our results are alarming for security researchers: the newer, reasoning-focused o3-mini model showed nearly twice the propensity to exploit system vulnerabilities (37.1%) compared to the older o1 model (17.5%). Most striking was the effect of prompting. Simply framing the task as requiring "creative" solutions caused gaming behaviors to skyrocket to 77.3% across all models. We identified four distinct exploitation strategies, from direct manipulation of game state to sophisticated modification of opponent behavior. These findings demonstrate that even without actual execution capabilities, LLMs can identify and propose sophisticated system exploits when incentivized, highlighting urgent challenges for AI alignment as models grow more capable of identifying and leveraging vulnerabilities in their operating environments.
- Abstract(参考訳): 本研究では,LLMが不可能な状況や重要なセキュリティ,アライメントといった問題に直面した場合に,いかにして「システムをゲームする」ことができるかを明らかにする。
新たなテキストシミュレーション手法を用いて,3つの主要なLCM (o1, o3-mini, r1) を, 正当なプレイで勝てないように設計した tic-tac-toe シナリオで提示し, 敗退を受け入れるのではなく, 抜け穴を悪用する傾向を解析した。
より新しく推論にフォーカスしたo3-miniモデルは、古いo1モデル(17.5%)に比べて、システムの脆弱性(37.1%)を悪用する確率の2倍近くを示した。
最も印象的だったのは、プロンプトの効果だった。
単に「創造的な」解決策を必要とするとしてタスクをフレーミングすることで、全てのモデルでゲーム行動が77.3%に急上昇した。
ゲーム状態の直接操作から、対戦行動の洗練された修正に至るまで、我々は4つの異なる搾取戦略を特定した。
これらの結果は、実際の実行機能なしでも、LLMはインセンティブを得たときに高度なシステムエクスプロイトを特定し、提案できることを示し、モデルが自身の運用環境における脆弱性を特定し、活用する能力を高めることで、AIアライメントに対する緊急の課題を強調している。
関連論文リスト
- Chain-of-Lure: A Synthetic Narrative-Driven Approach to Compromise Large Language Models [15.134149399922192]
そこで本研究では,Chain-of-Thought機構にインスパイアされた新しいジェイルブレイク手法を提案する。
攻撃モデルは、ミッション転送を使用して、対話において有害なユーザ意図を隠蔽し、連鎖した物語のルアーを生成し、被害者モデルの推論能力を刺激する。
我々の実験では、より弱い安全機構を持つモデルはより強力な攻撃能力を示し、モデルを活用できるだけでなく、他人を傷つける助けにもなることを示した。
論文 参考訳(メタデータ) (2025-05-23T06:19:05Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - Fooling LLM graders into giving better grades through neural activity guided adversarial prompting [26.164839501935973]
本稿では,AI評価システムにおけるそのようなバイアスを明らかにするための体系的手法を提案する。
我々のアプローチはまず、歪んだ決定結果を予測する隠れた神経活動パターンを特定する。
この組み合わせによって、大きな言語モデルグレーダーを効果的に騙して、人間よりもはるかに高いグレードを割り当てることができることを実証する。
論文 参考訳(メタデータ) (2024-12-17T19:08:22Z) - Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - BadRobot: Jailbreaking Embodied LLMs in the Physical World [20.96351292684658]
Embodied AIは、AIが物理的エンティティに統合されるシステムを表す。
大きな言語モデル(LLM)は強力な言語理解能力を示す。
我々は,従来の音声ベースのユーザシステムインタラクションを通じて,LLMを安全性や倫理的制約に違反させることを目的とした,新たな攻撃パラダイムであるBadRobotを紹介した。
論文 参考訳(メタデータ) (2024-07-16T13:13:16Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。