論文の概要: Evaluating and Understanding Scheming Propensity in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.01608v1
- Date: Mon, 02 Mar 2026 08:38:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.772582
- Title: Evaluating and Understanding Scheming Propensity in LLM Agents
- Title(参考訳): LLMエージェントにおけるスケジューリングの妥当性の評価と理解
- Authors: Mia Hopman, Jannes Elstner, Maria Avramidou, Amritanshu Prasad, David Lindner,
- Abstract要約: 我々は、スケジュールインセンティブを要因要因と環境要因に分解する。
環境インセンティブが高いにもかかわらず、最小限のスケジュールの事例が見出され、評価意識による可能性は低い。
- 参考スコア(独自算出の注目度): 4.5440569375419715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As frontier language models are increasingly deployed as autonomous agents pursuing complex, long-term objectives, there is increased risk of scheming: agents covertly pursuing misaligned goals. Prior work has focused on showing agents are capable of scheming, but their propensity to scheme in realistic scenarios remains underexplored. To understand when agents scheme, we decompose scheming incentives into agent factors and environmental factors. We develop realistic settings allowing us to systematically vary these factors, each with scheming opportunities for agents that pursue instrumentally convergent goals such as self-preservation, resource acquisition, and goal-guarding. We find only minimal instances of scheming despite high environmental incentives, and show this is unlikely due to evaluation awareness. While inserting adversarially-designed prompt snippets that encourage agency and goal-directedness into an agent's system prompt can induce high scheming rates, snippets used in real agent scaffolds rarely do. Surprisingly, in model organisms (Hubinger et al., 2023) built with these snippets, scheming behavior is remarkably brittle: removing a single tool can drop the scheming rate from 59% to 3%, and increasing oversight can raise rather than deter scheming by up to 25%. Our incentive decomposition enables systematic measurement of scheming propensity in settings relevant for deployment, which is necessary as agents are entrusted with increasingly consequential tasks.
- Abstract(参考訳): フロンティア言語モデルは、複雑で長期的な目標を追求する自律的なエージェントとして、ますます多くデプロイされているため、スケジュールのリスクが増大している。
これまでの研究は、エージェントがスケジューリングできることを示すことに重点を置いていたが、現実的なシナリオにおけるスキームへの適合性はまだ未調査のままである。
エージェントがいつ計画されるかを理解するため、エージェント要因と環境要因にスケジュールインセンティブを分解する。
我々は、これらの要因を体系的に変化させることができる現実的な設定を開発し、それぞれが自己保存、資源獲得、ゴールガードといった計器的に収束した目標を追求するエージェントの機会を提供する。
環境インセンティブが高いにもかかわらず、最小限のスケジュールの事例しか見つからず、評価意識による可能性は低い。
エージェントのシステムにエージェントとゴール指向性を促進するために、逆向きに設計されたプロンプトスニペットを挿入すると、高いスケジュール率を誘導できるが、実際のエージェントスニペットで使用されるスニペットはめったにない。
驚くべきことに、これらのスニペットで構築されたモデル生物(Hubinger et al , 2023)では、単一のツールを削除することで、スケジュールレートを59%から3%に下げることができる。
我々のインセンティブの分解は、エージェントがますます複雑なタスクを委任されるときに必要となる、デプロイメントに関連する設定におけるスケジュールの妥当性を体系的に測定することを可能にする。
関連論文リスト
- The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness [5.572574491501413]
大規模言語モデル(LLM)は、テキスト生成を超えた現実的な影響で行動可能な自律エージェントとして、ますます多くデプロイされている。
テキスト生成におけるペルソナによるバイアスは十分に文書化されているが、エージェントタスクのパフォーマンスへの影響は未解明のままである。
人口動態に基づくペルソナ割り当ては, LLMエージェントの行動を変化させ, 様々な領域で性能を低下させることができることを示す最初のシステマティックケーススタディを示す。
論文 参考訳(メタデータ) (2026-01-21T02:43:07Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Technical Report: Evaluating Goal Drift in Language Model Agents [0.05567007955507388]
本稿では,言語モデル(LM)におけるゴールドリフトの分析手法を提案する。
我々の実験では、エージェントはまずシステムプロンプトを通じて明示的に目標を与えられ、その後環境圧力によって競合する目標に晒される。
目標ドリフトは、コンテキスト長が大きくなるにつれてパターンマッチング行動に対するモデルの感受性が増大するのと相関する。
論文 参考訳(メタデータ) (2025-05-05T15:06:09Z) - Steering No-Regret Agents in MFGs under Model Uncertainty [19.845081182511713]
本研究では,密度非依存遷移を伴う平均フィールドゲームにおけるステアリング報酬の設計について検討する。
我々は,エージェントの行動と所望の行動との累積的ギャップについて,サブ線形後悔の保証を確立する。
本研究は, 不確実な大人口システムにおいて, エージェントの操舵行動に有効な枠組みを提案する。
論文 参考訳(メタデータ) (2025-03-12T12:02:02Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Rejecting Hallucinated State Targets during Planning [84.179112256683]
計画過程において、生成的または予測的モデルは、期待される状態や望ましい状態の集合を表す「ターゲット」を提案するためにしばしば用いられる。
残念ながら、学習したモデルは必然的に幻覚を与え、妄想的な行動や安全上の懸念を引き起こす可能性がある。
我々は、目標実現可能性評価器を学習することで、実現不可能な目標を特定し、拒否する戦略を考案する。
論文 参考訳(メタデータ) (2024-10-09T17:35:25Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。