論文の概要: Identifying and Addressing Delusions for Target-Directed Decision-Making
- arxiv url: http://arxiv.org/abs/2410.07096v3
- Date: Wed, 16 Oct 2024 18:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:27:10.056508
- Title: Identifying and Addressing Delusions for Target-Directed Decision-Making
- Title(参考訳): 目標指向決定過程における妄想の同定と対応
- Authors: Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio,
- Abstract要約: 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。
これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。
我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。
- 参考スコア(独自算出の注目度): 81.22463009144987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.
- Abstract(参考訳): 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。
これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。
直感的な例を慎重に制御した環境で利用し,その原因を解明し,異なる種類の妄想を識別する。
我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。
提案手法の有効性を実証的に検証し, 妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を行った。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Deception in Reinforced Autonomous Agents [30.510998478048723]
大型言語モデル(LLM)をベースとしたエージェントが微妙な騙しを行う能力について検討する。
この行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
2つのLDMが対立する役割を担っている立法環境を模倣した敵対的テストベッドを構築した。
論文 参考訳(メタデータ) (2024-05-07T13:55:11Z) - Analyzing Intentional Behavior in Autonomous Agents under Uncertainty [3.0099979365586265]
不確実な環境での自律的な意思決定の原則的説明責任は、否定的な設計と実際の事故との意図的な結果の区別を必要とする。
本稿では、意図的行動の証拠を定量的に測定し、自律エージェントの行動を分析することを提案する。
ケーススタディでは,本手法が「意図的」交通衝突と「事故的」交通衝突を区別できることを示す。
論文 参考訳(メタデータ) (2023-07-04T07:36:11Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Path-Specific Objectives for Safer Agent Incentives [15.759504531768219]
状態の'delicate'部分で設定を記述します。
次にエージェントを訓練し、状態の繊細な部分によって媒介されない期待されたリターンに対する行動の因果効果を最大化する。
結果として生じるエージェントは、繊細な状態を制御するインセンティブを持っていない。
論文 参考訳(メタデータ) (2022-04-21T11:01:31Z) - Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual
Patterns [18.694795507945603]
近年の研究では、敵の攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証されている。
本研究では, 物理的対象物に配置した視覚的学習パターンを用いて, 標的攻撃の実現可能性について検討する。
論文 参考訳(メタデータ) (2021-09-16T04:59:06Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。