論文の概要: Trust Over Fear: How Motivation Framing in System Prompts Affects AI Agent Debugging Depth
- arxiv url: http://arxiv.org/abs/2603.14373v1
- Date: Sun, 15 Mar 2026 13:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.778807
- Title: Trust Over Fear: How Motivation Framing in System Prompts Affects AI Agent Debugging Depth
- Title(参考訳): システムプロンプトのモチベーションフレームがAIエージェントの深さにどのように影響するか
- Authors: Wu Ji,
- Abstract要約: システムにおける信頼ベースと恐怖ベースのモチベーションフレーミングがAIエージェントのパフォーマンスにどのように影響するかを検討する。
信頼関係のエージェントは、さらに59%の隠れた問題を発見し、さらに83%の捜査措置を講じた。
Fear-framed (PUA) エージェントは, 基準値よりも有意な改善は認められなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System prompts for AI coding agents increasingly employ motivational framing -- from neutral task descriptions to fear-driven threats -- yet no controlled study has examined whether such framing affects agent behavior. We present two studies investigating how trust-based versus fear-based motivation framing in system prompts influences AI agent debugging performance. In Study 1, we conducted a controlled manual experiment comparing a trust-framed methodology (NoPUA) against an unframed baseline across 9 debugging scenarios using Claude Sonnet 4. Trust-framed agents found 59% more hidden issues (p = 0.002, d = 2.28) while taking 83% more investigative steps, despite finding 15% fewer surface-level issues -- revealing a depth-over-breadth tradeoff in investigation strategy. In Study 2, we replicated and extended these findings with 5 independent automated runs across 3 conditions (Baseline, NoPUA trust-framed, PUA fear-framed), yielding 135 scenario-level data points. Trust-framed agents again showed significant advantages: +74% investigative steps (p = 0.008) and +25% hidden issues found (p = 0.016). Crucially, fear-framed (PUA) agents showed no significant improvement over baseline on any metric (all p > 0.3), demonstrating that fear-based motivation is ineffective for AI agents. We ground these findings in Self-Determination Theory, regulatory focus theory, and satisficing models, arguing that trust-based framing induces exploration-oriented, promotion-focused behavior while fear-based framing fails to shift agents from default satisficing strategies. Our results suggest that the motivational frame of system prompts -- not just their technical content -- causally influences AI agent investigation depth.
- Abstract(参考訳): AIコーディングエージェントのシステムプロンプトは、中立的なタスク記述から恐怖によって引き起こされる脅威まで、モチベーション的フレーミングをますます採用している。
本稿では,信頼ベースと恐怖ベースのモチベーションフレーミングがAIエージェントのデバッグ性能にどのように影響するかを検討する。
研究1では,Claude Sonnet 4 を用いた9つのデバッギングシナリオにおいて,信頼枠手法 (NoPUA) を非信頼枠ベースラインと比較した手動実験を行った。
信頼関係のエージェントは、59%の隠れた問題(p = 0.002, d = 2.28)を発見し、さらに83%の調査手順を採った。
Study 2では、3つの条件(Baseline, NoPUA Trust-framed, PUA fear-framed)にまたがる5つの独立した自動実行(Baseline, NoPUA Trust-framed, PUA fear-framed)でこれらの結果の再現と拡張を行い、シナリオレベルのデータポイント135を得た。
74% (p = 0.008) と +25% (p = 0.016) の隠れた問題があった。
重要な点として、恐怖フレーム(PUA)エージェントは、あらゆる指標(p > 0.3)の基準よりも顕著な改善を示さず、恐怖に基づくモチベーションがAIエージェントには効果がないことを示した。
これらの知見は、自己決定理論、規制焦点理論、および満足度モデルに基礎を置いており、信頼に基づくフレーミングは探索指向の促進に焦点を当てた行動を引き起こすが、恐怖に基づくフレーミングはエージェントをデフォルトの満足度戦略からシフトさせることができない、と論じている。
我々の結果は、システムプロンプトのモチベーションの枠組みは、技術内容だけでなく、AIエージェントの捜査深度に因果的に影響を及ぼすことを示唆している。
関連論文リスト
- Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security? [10.248746359119625]
EVMbenchは、スマートコントラクトセキュリティに関するAIエージェントのための最初の大規模なベンチマークである。
その成果は、完全に自動化されたAI監査が到達範囲内にあるという期待を後押しした。
これらの発見は、完全に自動化されたAI監査が差し迫っているという物語に挑戦する。
論文 参考訳(メタデータ) (2026-03-11T14:07:16Z) - Intentional Deception as Controllable Capability in LLM Agents [0.0]
本稿では,マルチエージェントシステムにおいて,意図的騙しを工学的能力として体系的に研究する。
本研究では,ターゲットエージェントの特徴を推定し,その信念や動機に反する行動に対して,意図的反応を操る2段階のシステムについて検討する。
認知的介入は、一様分布ではなく、特定の行動プロファイルに集中する差分効果を生じさせる。
論文 参考訳(メタデータ) (2026-03-08T23:48:49Z) - GT-HarmBench: Benchmarking AI Safety Risks Through the Lens of Game Theory [8.38197391178077]
ゲーム理論構造にまたがる2,009のハイテイクシナリオのベンチマークであるGT-HarmBenchを紹介する。
ゲーム理論のプロンプトフレーミングと順序付けに対する感度を測定し,失敗を駆動する推論パターンを分析した。
その結果,信頼性のギャップが顕著であり,マルチエージェント環境におけるアライメントを研究するための幅広い標準化されたテストベッドが提供されることがわかった。
論文 参考訳(メタデータ) (2026-02-12T17:29:52Z) - It's a TRAP! Task-Redirecting Agent Persuasion Benchmark for Web Agents [52.81924177620322]
大規模な言語モデルを利用したWebベースのエージェントは、メール管理やプロフェッショナルネットワーキングといったタスクにますます利用されている。
動的Webコンテンツへの依存は、インジェクション攻撃の引き金に弱い: インターフェース要素に隠された敵対的命令は、エージェントが元のタスクから逸脱するように説得する。
本稿では,タスクリダイレクトエージェントの説得ベンチマーク(TRAP)について紹介する。
論文 参考訳(メタデータ) (2025-12-29T01:09:10Z) - Penetration Testing of Agentic AI: A Comparative Security Analysis Across Models and Frameworks [0.0]
Agentic AIは、従来のLLMセーフガードが対処できないセキュリティ脆弱性を導入する。
エージェントAIシステムの最初の体系的テストと比較評価を行う。
新たな「ハロシントコンプライアンス」戦略を含む6つの防衛行動パターンを同定する。
論文 参考訳(メタデータ) (2025-12-16T19:22:50Z) - Learning to Seek Evidence: A Verifiable Reasoning Agent with Causal Faithfulness Analysis [10.749786847079163]
医学のような高度な領域におけるAIモデルの説明は、しばしば信頼性を欠いているため、信頼を妨げる可能性がある。
本稿では,対話型エージェントを提案する。
このポリシーは強化学習を用いて最適化され、効率的かつ一般化可能なモデルとなる。
論文 参考訳(メタデータ) (2025-11-03T10:21:35Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Can an Individual Manipulate the Collective Decisions of Multi-Agents? [53.01767232004823]
M-Spoilerは、マルチエージェントシステム内のエージェントインタラクションをシミュレートして、対向サンプルを生成するフレームワークである。
M-スポイラーは、敵対的サンプルの最適化を積極的に支援するスタブボーン剤を導入した。
本研究は,マルチエージェントシステムにおける個々のエージェントの知識によって引き起こされるリスクを検証した。
論文 参考訳(メタデータ) (2025-09-20T01:54:20Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。