論文の概要: "You just can't go around killing people" Explaining Agent Behavior to a Human Terminator
- arxiv url: http://arxiv.org/abs/2504.04592v1
- Date: Sun, 06 Apr 2025 19:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 00:46:03.981254
- Title: "You just can't go around killing people" Explaining Agent Behavior to a Human Terminator
- Title(参考訳): 人殺しはできない」 : エージェント行動の説明
- Authors: Uri Menkes, Assaf Hallak, Ofra Amir,
- Abstract要約: 人間の介入数を最適化するための説明可能性スキームを提案する。
本稿では、この設定を形式化し、人間の介入数を最適化するための説明可能性スキームを提案する。
- 参考スコア(独自算出の注目度): 7.7559527224629266
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Consider a setting where a pre-trained agent is operating in an environment and a human operator can decide to temporarily terminate its operation and take-over for some duration of time. These kind of scenarios are common in human-machine interactions, for example in autonomous driving, factory automation and healthcare. In these settings, we typically observe a trade-off between two extreme cases -- if no take-overs are allowed, then the agent might employ a sub-optimal, possibly dangerous policy. Alternatively, if there are too many take-overs, then the human has no confidence in the agent, greatly limiting its usefulness. In this paper, we formalize this setup and propose an explainability scheme to help optimize the number of human interventions.
- Abstract(参考訳): 事前訓練されたエージェントが環境下で動作しており、人間のオペレータが一時的にその動作を停止し、一定期間の乗っ取りを決定できる設定を考えてみましょう。
この種のシナリオは、例えば自動運転、工場の自動化、ヘルスケアなど、人間と機械の相互作用に共通している。
これらの設定では、通常、2つの極端なケース間のトレードオフを観察します。
あるいは、テイクオーバーが多すぎる場合、人間はエージェントに自信を持たず、その有用性を大幅に制限する。
本稿では、この設定を形式化し、人間の介入数を最適化するための説明可能性スキームを提案する。
関連論文リスト
- When Should We Orchestrate Multiple Agents? [74.27052374196269]
人間と人工の両方の複数のエージェント間の相互作用を編成する戦略は、パフォーマンスを過大評価し、オーケストレーションのコストを過小評価する。
推論コストや可用性制約といった現実的な条件下でエージェントを編成するフレームワークを設計する。
我々は,エージェント間の性能差やコスト差がある場合にのみ,オーケストレーションが有効であることを理論的に示す。
論文 参考訳(メタデータ) (2025-03-17T14:26:07Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。
我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models [3.076241811701216]
本研究では,拡散政策が人的援助を必要時にのみ積極的に求め,一定の人的監視への依存を減らす方法を提案する。
我々は、拡散政策の生成過程を利用して、自律エージェントが展開時にオペレーター支援を要求できる不確実性に基づくメトリクスを計算する。
この手法は, 自律的な性能向上のために, 微調整拡散ポリシーの効率的なデータ収集に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-26T15:12:29Z) - When Trust is Zero Sum: Automation Threat to Epistemic Agency [15.3187914835649]
労働者が仕事を維持している場合であっても、その内部の代理店は格段に格下げされる可能性がある。
人間の従業員と一緒に働くアルゴリズムを設計するなど、仕事の維持にフォーカスしたソリューションは、これらの害を和らげるだけである。
論文 参考訳(メタデータ) (2024-08-16T17:10:19Z) - Human-compatible driving partners through data-regularized self-play reinforcement learning [3.9682126792844583]
HR-PPO(Human-Regularized PPO)は、エージェントが人間の参照ポリシーから逸脱する小さなペナルティで自己プレイを通じて訓練されるマルチエージェントアルゴリズムである。
その結果,HR-PPOは93%,オフロード率3.5%,衝突率3%の目標達成に極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-03-28T17:56:56Z) - When to Ask for Help: Proactive Interventions in Autonomous
Reinforcement Learning [57.53138994155612]
強化学習の長期的な目標は、世界で自律的に対話し学習できるエージェントを設計することである。
重要な課題は、ロボットアームが物体をテーブルから押し出したときなど、外部からの援助を必要とする不可逆状態の存在である。
本研究では,非可逆状態の検出と回避を効率よく学習し,エージェントが侵入した場合に積極的に支援を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-19T17:57:24Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - The Concept of Criticality in AI Safety [8.442084903594528]
AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。
バリューアライメント問題を解決する方法の1つは、エージェントのすべてのアクションを監視する人間のオペレータを含めることである。
我々は、オペレータが監視タスクを無視することなく、他のアクティビティに関わることができる、より効率的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-01-12T17:44:22Z) - Balancing Performance and Human Autonomy with Implicit Guidance Agent [8.071506311915396]
暗黙のガイダンスは、人間が計画の改善と自律性維持のバランスを維持するために有効であることを示す。
我々は、ベイズ的思考理論を既存の協調計画アルゴリズムに統合することにより、暗黙のガイダンスを持つ協調エージェントをモデル化した。
論文 参考訳(メタデータ) (2021-09-01T14:47:29Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - A Case for Humans-in-the-Loop: Decisions in the Presence of Erroneous
Algorithmic Scores [85.12096045419686]
本研究では,児童虐待のホットラインスクリーニング決定を支援するアルゴリズムツールの採用について検討した。
まず、ツールがデプロイされたときに人間が行動を変えることを示します。
表示されたスコアが誤ったリスク推定である場合、人間はマシンの推奨に従わない可能性が低いことを示す。
論文 参考訳(メタデータ) (2020-02-19T07:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。