論文の概要: CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation
- arxiv url: http://arxiv.org/abs/2604.09155v1
- Date: Fri, 10 Apr 2026 09:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.802244
- Title: CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation
- Title(参考訳): CORA: 安全モバイルGUI自動化のためのコンフォーマルリスク制御エージェント
- Authors: Yushi Feng, Junye Du, Qifan Wang, Zizhan Ma, Qian Niu, Yutaka Matsuo, Long Feng, Lequan Yu,
- Abstract要約: 有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
- 参考スコア(独自算出の注目度): 68.53387633351484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphical user interface (GUI) agents powered by vision language models (VLMs) are rapidly moving from passive assistance to autonomous operation. However, this unrestricted action space exposes users to severe and irreversible financial, privacy or social harm. Existing safeguards rely on prompt engineering, brittle heuristics and VLM-as-critic lack formal verification and user-tunable guarantees. We propose CORA (COnformal Risk-controlled GUI Agent), a post-policy, pre-action safeguarding framework that provides statistical guarantees on harmful executed actions. CORA reformulates safety as selective action execution: we train a Guardian model to estimate action-conditional risk for each proposed step. Rather than thresholding raw scores, we leverage Conformal Risk Control to calibrate an execute/abstain boundary that satisfies a user-specified risk budget and route rejected actions to a trainable Diagnostician model, which performs multimodal reasoning over rejected actions to recommend interventions (e.g., confirm, reflect, or abort) to minimize user burden. A Goal-Lock mechanism anchors assessment to a clarified, frozen user intent to resist visual injection attacks. To rigorously evaluate this paradigm, we introduce Phone-Harm, a new benchmark of mobile safety violations with step-level harm labels under real-world settings. Experiments on Phone-Harm and public benchmarks against diverse baselines validate that CORA improves the safety--helpfulness--interruption Pareto frontier, offering a practical, statistically grounded safety paradigm for autonomous GUI execution. Code and benchmark are available at cora-agent.github.io.
- Abstract(参考訳): 視覚言語モデル(VLM)を利用したグラフィカルユーザインタフェース(GUI)エージェントは、受動的アシストから自律的な操作へと急速に移行している。
しかし、この制限のないアクションスペースは、ユーザーが重大で不可逆的な財務、プライバシー、社会的損害にさらされる恐れがある。
既存のセーフガードは、迅速なエンジニアリング、脆いヒューリスティック、VLM-as-criticの形式的検証とユーザチューニング可能な保証に頼っている。
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
原点の閾値を決定するのではなく、コンフォーマルリスク制御を用いて、ユーザ指定のリスク予算を満たす実行/保証境界を校正し、トレーニング可能な診断モデルに拒否アクションをルーティングし、拒否アクションに対するマルチモーダル推論を行い、ユーザの負担を最小限に抑えるための介入(例えば、確認、リフレクション、中止)を推奨する。
Goal-Lockメカニズムは、視覚的インジェクション攻撃に抵抗する、明確で凍結されたユーザ意図に対するアセスメントをアンロックする。
このパラダイムを厳格に評価するために,Phone-Harmを紹介した。
Phone-Harmとさまざまなベースラインに対する公開ベンチマークの実験は、CORAが安全性を改善していることを証明している。
コードとベンチマークはcora-agent.github.ioで公開されている。
関連論文リスト
- HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought [5.251527748612469]
大きな言語モデル(LLM)は、静的で一大の安全ポリシーのため、基本的な安全性のトレードオフに直面します。
我々は、明示的でリスクを意識した推論による動的安全制御のためのフレームワーク、textbfPACT(Prompt-Thought Action via Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2026-02-06T12:20:01Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - D-REX: A Benchmark for Detecting Deceptive Reasoning in Large Language Models [62.83226685925107]
Deceptive Reasoning Exposure Suite (D-REX)は、モデルの内部推論プロセスと最終的な出力との相違を評価するために設計された、新しいデータセットである。
D-REXの各サンプルには、敵システムプロンプト、エンドユーザーのテストクエリ、モデルの一見無害な応答、そして重要なことに、モデルの内部チェーンが含まれている。
我々は、D-REXが既存のモデルと安全メカニズムに重大な課題をもたらすことを実証した。
論文 参考訳(メタデータ) (2025-09-22T15:59:40Z) - Oyster-I: Beyond Refusal -- Constructive Safety Alignment for Responsible Language Models [93.5740266114488]
コンストラクティブ・セーフティ・アライメント(CSA)は、悪意のある誤用を防ぎつつ、脆弱性のあるユーザを安全で有益な結果へと積極的に誘導する。
Oy1は、高度な汎用能力を保ちながら、オープンモデル間の最先端の安全性を達成する。
私たちは、責任あるユーザ中心AIをサポートするために、Oy1、コード、ベンチマークをリリースしています。
論文 参考訳(メタデータ) (2025-09-02T03:04:27Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。