論文の概要: Rejecting Hallucinated State Targets during Planning
- arxiv url: http://arxiv.org/abs/2410.07096v6
- Date: Fri, 07 Feb 2025 18:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:53:44.912679
- Title: Rejecting Hallucinated State Targets during Planning
- Title(参考訳): 計画中のハロゲン化状態ターゲットの排除
- Authors: Mingde Zhao, Tristan Sylvain, Romain Laroche, Doina Precup, Yoshua Bengio,
- Abstract要約: 本稿では,アドオン目標評価器を用いた適応モデルの提案に対して,幻覚的かつ実現不可能な目標を拒絶することを提案する。
しかし、適切なトレーニングがなければ、評価器は妄想的な見積もりを生成し、無駄にすることができる。
提案手法は妄想行動を大幅に低減し,計画エージェントの性能を向上させる。
- 参考スコア(独自算出の注目度): 84.179112256683
- License:
- Abstract: Generative models can be used in planning to propose targets corresponding to states or observations that agents deem either likely or advantageous to experience. However, agents can struggle with hallucinated, infeasible targets proposed by the models, leading to delusional planning behaviors, which raises safety concerns. Drawing inspiration from the human brain, we propose to reject these hallucinated targets with an add-on target evaluator. Without proper training, however, the evaluator can produce delusional estimates, rendering it futile. We propose to address this via a combination of learning rule, architecture, and two novel hindsight relabeling strategies, which leads to correct evaluations of infeasible targets. Our experiments confirm that our approach significantly reduces delusional behaviors and enhances the performance of planning agents.
- Abstract(参考訳): 生成モデルは、エージェントが経験に有益または有益であると判断する状態や観察に対応するターゲットを提案する計画に使用することができる。
しかし、エージェントは、モデルによって提案された幻覚的で非現実的な目標に苦しむことができ、妄想的な計画行動を引き起こし、安全上の懸念を引き起こす。
人間の脳からインスピレーションを得て,これらの幻覚的対象を付加目標評価器で拒絶することを提案する。
しかし、適切なトレーニングがなければ、評価器は妄想的な見積もりを生成し、無駄にすることができる。
本稿では、学習ルール、アーキテクチャ、および2つの新しい近視緩和戦略を組み合わせることでこの問題に対処し、実現不可能な目標を正しく評価することを提案する。
本実験は,提案手法が妄想行動を大幅に低減し,計画エージェントの性能を向上させることを確認した。
関連論文リスト
- Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。
我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:52:02Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - On Almost-Sure Intention Deception Planning that Exploits Imperfect
Observers [24.11353445650682]
意図的な騙しは、エージェントの意図や目的に対する間違った信念に敵を欺く戦略を計算することを含む。
本稿では,意図的騙しを伴う確率的計画問題の類型を考察し,防御者の限定的な感覚的モダリティをどのように活用するかを考察する。
論文 参考訳(メタデータ) (2022-09-01T16:38:03Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning [1.26990070983988]
モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-05-12T15:04:07Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。