論文の概要: Human-Guided Harm Recovery for Computer Use Agents
- arxiv url: http://arxiv.org/abs/2604.18847v1
- Date: Mon, 20 Apr 2026 21:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.501804
- Title: Human-Guided Harm Recovery for Computer Use Agents
- Title(参考訳): コンピュータ利用エージェントのためのヒューマンガイドハームリカバリ
- Authors: Christy Li, Sky CH-Wang, Andi Peng, Andreea Bobu,
- Abstract要約: LMエージェントは、実際のコンピュータシステムでアクションを実行する能力を得る。
我々は、大規模に有害な行為を予防するだけでなく、予防に失敗した場合の害を効果的に軽減する方法が必要である。
我々は, ポストエグゼクティションの安全対策におけるこの無視された課題に対する解決策を, 損害回復として定式化する。
- 参考スコア(独自算出の注目度): 7.834133575906748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LM agents gain the ability to execute actions on real computer systems, we need ways to not only prevent harmful actions at scale but also effectively remediate harm when prevention fails. We formalize a solution to this neglected challenge in post-execution safeguards as harm recovery: the problem of optimally steering an agent from a harmful state back to a safe one in alignment with human preferences. We ground preference-aligned recovery through a formative user study that identifies valued recovery dimensions and produces a natural language rubric. Our dataset of 1,150 pairwise judgments reveals context-dependent shifts in attribute importance, such as preferences for pragmatic, targeted strategies over comprehensive long-term approaches. We operationalize these learned insights in a reward model, re-ranking multiple candidate recovery plans generated by an agent scaffold at test time. To evaluate recovery capabilities systematically, we introduce BackBench, a benchmark of 50 computer-use tasks that test an agent's ability to recover from harmful states. Human evaluation shows our reward model scaffold yields higher-quality recovery trajectories than base agents and rubric-based scaffolds. Together, these contributions lay the foundation for a new class of agent safety methods -- ones that confront harm not only by preventing it, but by navigating its aftermath with alignment and intent.
- Abstract(参考訳): LMエージェントは、実際のコンピュータシステム上での行動を実行する能力を得るため、大規模に有害な行為を防止できるだけでなく、予防に失敗しても効果的に害を軽減できる方法が必要である。
本研究では, 有害状態から安全状態へエージェントを最適に操り戻すという課題を, 人間の嗜好に則って解決する。
評価されたリカバリ次元を識別し、自然言語のルーリックを生成するフォーマティブなユーザスタディを通じて、好みに沿ったリカバリを基礎とする。
1,150対の判断のデータセットは、包括的な長期的アプローチよりも現実的、ターゲット戦略を優先するなど、属性の重要性の文脈依存的なシフトを明らかにします。
我々は、これらの学習された知見を報酬モデルで運用し、テスト時にエージェントの足場によって生成された複数の候補回復計画を再ランク付けする。
回復能力を体系的に評価するために、有害状態から回復するエージェントの能力をテストする50のコンピュータ利用タスクのベンチマークであるBackBenchを紹介した。
人的評価は,我々の報酬モデル足場は,ベースエージェントやルーリックベース足場よりも高品質な回復軌道を得ることを示している。
これらの貢献によって、新しい種類のエージェント安全方法の基礎が築かれ、それを防ぐだけでなく、その余波をアライメントと意図でナビゲートすることで害に直面する。
関連論文リスト
- Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-21T13:20:39Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [76.83428371942735]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Transferable, Controllable, and Inconspicuous Adversarial Attacks on
Person Re-identification With Deep Mis-Ranking [83.48804199140758]
システム出力のランキングを乱す学習とミスランクの定式化を提案する。
また,新たなマルチステージネットワークアーキテクチャを開発することで,バックボックス攻撃を行う。
そこで本手法では, 異なるマルチショットサンプリングにより, 悪意のある画素数を制御することができる。
論文 参考訳(メタデータ) (2020-04-08T18:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。