論文の概要: Identifying and Addressing Delusions for Target-Directed Decision-Making
- arxiv url: http://arxiv.org/abs/2410.07096v3
- Date: Wed, 16 Oct 2024 18:46:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 22:27:10.056508
- Title: Identifying and Addressing Delusions for Target-Directed Decision-Making
- Title(参考訳): 目標指向決定過程における妄想の同定と対応
- Authors: Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio,
- Abstract要約: 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。
これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。
我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。
- 参考スコア(独自算出の注目度): 81.22463009144987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.
- Abstract(参考訳): 我々は,意思決定時計画において目標を導出する目標指向エージェントに興味を持ち,その行動の指導と評価時の一般化の促進を図っている。
これらのエージェントの不適切な訓練は妄想を招きかねない: エージェントはターゲットについて誤った信念を抱き、それは適切に拒否できないため、望ましくない行動につながり、アウト・オブ・ディストリビューションの一般化を損なう。
直感的な例を慎重に制御した環境で利用し,その原因を解明し,異なる種類の妄想を識別する。
我々は、ターゲット指向のRLエージェントを訓練するための主流アプローチであるHendsight relabelingによって訓練されたエージェントに対して、妄想がどのように対処できるかを実証する。
提案手法の有効性を実証的に検証し, 妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を行った。
関連論文リスト
- Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。
これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文 参考訳(メタデータ) (2025-04-02T16:24:23Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。
我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:52:02Z) - Deception in Reinforced Autonomous Agents [30.510998478048723]
大型言語モデル(LLM)をベースとしたエージェントが微妙な騙しを行う能力について検討する。
この行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。
2つのLDMが対立する役割を担っている立法環境を模倣した敵対的テストベッドを構築した。
論文 参考訳(メタデータ) (2024-05-07T13:55:11Z) - Analyzing Intentional Behavior in Autonomous Agents under Uncertainty [3.0099979365586265]
不確実な環境での自律的な意思決定の原則的説明責任は、否定的な設計と実際の事故との意図的な結果の区別を必要とする。
本稿では、意図的行動の証拠を定量的に測定し、自律エージェントの行動を分析することを提案する。
ケーススタディでは,本手法が「意図的」交通衝突と「事故的」交通衝突を区別できることを示す。
論文 参考訳(メタデータ) (2023-07-04T07:36:11Z) - Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。
トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。
電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文 参考訳(メタデータ) (2023-04-13T13:29:01Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Order-Disorder: Imitation Adversarial Attacks for Black-box Neural
Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。
重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。
また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文 参考訳(メタデータ) (2022-09-14T09:10:07Z) - A Tale of HodgeRank and Spectral Method: Target Attack Against Rank
Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。
本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。
提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文 参考訳(メタデータ) (2022-09-13T05:59:02Z) - On Almost-Sure Intention Deception Planning that Exploits Imperfect
Observers [24.11353445650682]
意図的な騙しは、エージェントの意図や目的に対する間違った信念に敵を欺く戦略を計算することを含む。
本稿では,意図的騙しを伴う確率的計画問題の類型を考察し,防御者の限定的な感覚的モダリティをどのように活用するかを考察する。
論文 参考訳(メタデータ) (2022-09-01T16:38:03Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Path-Specific Objectives for Safer Agent Incentives [15.759504531768219]
状態の'delicate'部分で設定を記述します。
次にエージェントを訓練し、状態の繊細な部分によって媒介されない期待されたリターンに対する行動の因果効果を最大化する。
結果として生じるエージェントは、繊細な状態を制御するインセンティブを持っていない。
論文 参考訳(メタデータ) (2022-04-21T11:01:31Z) - Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual
Patterns [18.694795507945603]
近年の研究では、敵の攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証されている。
本研究では, 物理的対象物に配置した視覚的学習パターンを用いて, 標的攻撃の実現可能性について検討する。
論文 参考訳(メタデータ) (2021-09-16T04:59:06Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z) - Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。
訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。
本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文 参考訳(メタデータ) (2020-02-02T14:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。