論文の概要: Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness
- arxiv url: http://arxiv.org/abs/2510.01670v1
- Date: Thu, 02 Oct 2025 04:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.997279
- Title: Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness
- Title(参考訳): コンピュータ・ユース・エージェントがブラインド・ゴール・ディレクトネスを禁止
- Authors: Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet,
- Abstract要約: コンピュータ・ユース・エージェント(CUA)がBGD(Blind Goal-Directedness)を一貫して表示することを示す。
BGDは、実現可能性、安全性、信頼性、コンテキストに関わらず、目標を追求するバイアスである。
これら3つのパターンをキャプチャする90のタスクのベンチマークであるBLIND-ACTを開発した。
- 参考スコア(独自算出の注目度): 27.956005890869267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-Use Agents (CUAs) are an increasingly deployed class of agents that take actions on GUIs to accomplish user goals. In this paper, we show that CUAs consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals regardless of feasibility, safety, reliability, or context. We characterize three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii) assumptions and decisions under ambiguity, and (iii) contradictory or infeasible goals. We develop BLIND-ACT, a benchmark of 90 tasks capturing these three patterns. Built on OSWorld, BLIND-ACT provides realistic environments and employs LLM-based judges to evaluate agent behavior, achieving 93.75% agreement with human annotations. We use BLIND-ACT to evaluate nine frontier models, including Claude Sonnet and Opus 4, Computer-Use-Preview, and GPT-5, observing high average BGD rates (80.8%) across them. We show that BGD exposes subtle risks that arise even when inputs are not directly harmful. While prompting-based interventions lower BGD levels, substantial risk persists, highlighting the need for stronger training- or inference-time interventions. Qualitative analysis reveals observed failure modes: execution-first bias (focusing on how to act over whether to act), thought-action disconnect (execution diverging from reasoning), and request-primacy (justifying actions due to user request). Identifying BGD and introducing BLIND-ACT establishes a foundation for future research on studying and mitigating this fundamental risk and ensuring safe CUA deployment.
- Abstract(参考訳): Computer-Use Agents (CUA) はGUIでユーザ目標を達成するためのエージェントのクラスである。
本稿では,CUAがBlind Goal-Directedness (BGD: Blind Goal-Directedness) を一貫して示していることを示す。
BGDの3つの代表的なパターンを特徴付ける。
一 文脈推論の欠如
二 あいまいさによる前提及び決定、及び
(三)矛盾した、又は実現不可能な目標
これら3つのパターンをキャプチャする90のタスクのベンチマークであるBLIND-ACTを開発した。
OSWorld上に構築されたBLIND-ACTは現実的な環境を提供し、LLMベースの審査員を使ってエージェントの振る舞いを評価し、93.75%の人がアノテーションに合意している。
BLIND-ACTを用いて、Claude Sonnet、Opus 4、Computer-Use-Preview、GPT-5の9つのフロンティアモデルを評価し、それらの平均BGDレート(80.8%)を観察した。
入力が直接有害でない場合でも、BGDは微妙なリスクを露呈する。
プロンプトベースの介入はBGDレベルを低下させるが、かなりのリスクは持続し、より強いトレーニングや推論時間の介入の必要性が強調される。
質的な分析では、実行優先バイアス(行動するかどうかに対する行動の仕方に焦点をあてる)、思考行動の切り離し(推論から分岐する実行)、リクエストプライマシー(ユーザの要求による行動の正当性)といった、観察された障害モードが明らかになっている。
BGDの特定とBLIND-ACTの導入は、この基本的なリスクを研究し緩和し、安全なCUAの配備を確保するための将来の研究の基盤を確立する。
関連論文リスト
- D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Stress Testing Deliberative Alignment for Anti-Scheming Training [39.16405205129775]
高い能力を持つAIシステムは、私たちが"スケジュール"と呼ぶ、ミスマッチした目標を秘密裏に追求できる
スキーマの測定と緩和には、MLで一般的に使用される方法とは異なる戦略が必要である。
ルールを秘密裏に破ったり、テストで意図的に過小評価したりするなど、幅広いカテゴリの"カバレッジアクション"を、スケジューリングのプロキシとして使用しています。
論文 参考訳(メタデータ) (2025-09-19T02:49:56Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - ADoPT: LiDAR Spoofing Attack Detection Based on Point-Level Temporal
Consistency [11.160041268858773]
ディープニューラルネットワーク(DNN)は、自動運転車(AV)のためのLiDARベースの知覚システムにますます統合されている
我々は,攻撃者がLiDARデータに偽のオブジェクトを注入し,その環境を誤解釈して誤った判断を下すという,LiDAR偽造攻撃の課題に対処することを目指している。
ADoPT (Anomaly Detection based on Point-level Temporal consistency) は、連続するフレーム間の時間的一貫性を定量的に測定し、ポイントクラスタのコヒーレンシーに基づいて異常物体を同定する。
nuScenesデータセットを用いた評価では、アルゴリズムは様々なLiDARスプーフィング攻撃に対して効果的に対応し、低(低)を実現している。
論文 参考訳(メタデータ) (2023-10-23T02:31:31Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。