論文の概要: Identifying and Addressing Delusions for Target-Directed Decision-Making
- arxiv url: http://arxiv.org/abs/2410.07096v4
- Date: Wed, 16 Oct 2024 18:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:27:10.052612
- Title: Identifying and Addressing Delusions for Target-Directed Decision-Making
- Title(参考訳): 目標指向決定過程における妄想の同定と対応
- Authors: Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio,
- Abstract要約: ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。
制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。
提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。
- 参考スコア(独自算出の注目度): 81.22463009144987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target-directed agents utilize self-generated targets, to guide their behaviors for better generalization. These agents are prone to blindly chasing problematic targets, resulting in worse generalization and safety catastrophes. We show that these behaviors can be results of delusions, stemming from improper designs around training: the agent may naturally come to hold false beliefs about certain targets. We identify different types of delusions via intuitive examples in controlled environments, and investigate their causes and mitigations. With the insights, we demonstrate how we can make agents address delusions preemptively and autonomously. We validate empirically the effectiveness of the proposed strategies in correcting delusional behaviors and improving out-of-distribution generalization.
- Abstract(参考訳): ターゲット指向エージェントは、自己生成ターゲットを使用して、その振る舞いをより一般化するためにガイドする。
これらの薬剤は、問題のある標的を盲目的に追跡する傾向があり、その結果、より一層の一般化と安全災害をもたらす。
これらの行動は、訓練に関する不適切な設計から起因した妄想の結果であることを示す:エージェントは、自然に特定の目標について誤った信念を持つようになるかもしれない。
制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。
これらの知見により、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。
提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。
関連論文リスト
- Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。
我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:52:02Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - On Almost-Sure Intention Deception Planning that Exploits Imperfect
Observers [24.11353445650682]
意図的な騙しは、エージェントの意図や目的に対する間違った信念に敵を欺く戦略を計算することを含む。
本稿では,意図的騙しを伴う確率的計画問題の類型を考察し,防御者の限定的な感覚的モダリティをどのように活用するかを考察する。
論文 参考訳(メタデータ) (2022-09-01T16:38:03Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning [1.26990070983988]
モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-05-12T15:04:07Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。