Fugu-MT 論文翻訳(概要): Identifying and Addressing Delusions for Target-Directed Decision-Making

論文の概要: Identifying and Addressing Delusions for Target-Directed Decision-Making

arxiv url: http://arxiv.org/abs/2410.07096v4
Date: Wed, 16 Oct 2024 18:46:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 22:27:10.052612
Title: Identifying and Addressing Delusions for Target-Directed Decision-Making
Title（参考訳）: 目標指向決定過程における妄想の同定と対応
Authors: Mingde Zhao, Tristan Sylvain, Doina Precup, Yoshua Bengio,
Abstract要約: ターゲット指向のエージェントは、問題のあるターゲットを盲目的に追跡する傾向があり、その結果、より一層の一般化と安全性の破滅が生じる。制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。
参考スコア（独自算出の注目度）: 81.22463009144987
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Target-directed agents utilize self-generated targets, to guide their behaviors for better generalization. These agents are prone to blindly chasing problematic targets, resulting in worse generalization and safety catastrophes. We show that these behaviors can be results of delusions, stemming from improper designs around training: the agent may naturally come to hold false beliefs about certain targets. We identify different types of delusions via intuitive examples in controlled environments, and investigate their causes and mitigations. With the insights, we demonstrate how we can make agents address delusions preemptively and autonomously. We validate empirically the effectiveness of the proposed strategies in correcting delusional behaviors and improving out-of-distribution generalization.
Abstract（参考訳）: ターゲット指向エージェントは、自己生成ターゲットを使用して、その振る舞いをより一般化するためにガイドする。これらの薬剤は、問題のある標的を盲目的に追跡する傾向があり、その結果、より一層の一般化と安全災害をもたらす。これらの行動は、訓練に関する不適切な設計から起因した妄想の結果であることを示す:エージェントは、自然に特定の目標について誤った信念を持つようになるかもしれない。制御環境における直感的な例を通して異なる種類の妄想を識別し,その原因と緩和について検討する。これらの知見により、エージェントが先制的かつ自律的に妄想に対処する方法を実証する。提案手法の有効性を実証的に検証し,妄想行動の補正とアウト・オブ・ディストリビューションの一般化の改善を図る。

関連論文リスト

From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。 3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文参考訳（メタデータ） (2026-01-22T06:21:31Z)
Current Agents Fail to Leverage World Model as Tool for Foresight [61.82522354207919]
エージェントは、行動する前に結果を予測するためにそれらを使用できます。本稿では,現在のエージェントがそのような世界モデルを,認知力を高めるツールとして活用できるかどうかを実証的に検討する。
論文参考訳（メタデータ） (2026-01-07T13:15:23Z)
Brain-Inspired Planning for Better Generalization in Reinforcement Learning [0.0]
この論文は、エージェントのゼロショット・システマティックな一般化能力を強化する方向性を探求する。我々は、意思決定時計画エージェントが環境状態の最も関連性の高い側面に動的に集中できるトップダウンアテンション機構を導入する。また、複雑なタスクをよりシンプルで管理しやすいサブタスクに自動的に分解するSkipperフレームワークを開発しました。
論文参考訳（メタデータ） (2025-11-09T17:32:55Z)
Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文参考訳（メタデータ） (2025-07-09T20:09:00Z)
AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文参考訳（メタデータ） (2025-06-04T14:46:47Z)
Rethinking Target Label Conditioning in Adversarial Attacks: A 2D Tensor-Guided Generative Approach [26.259289475583522]
マルチターゲット対人攻撃は、複数のターゲットクラスに対して同時に対人画像を生成する能力により、大きな注目を集めている。このギャップに対処するために、まず、標的攻撃の伝達可能性に影響を及ぼす意味的特徴品質と量が重要な要因であることを特定し、検証する。本稿では,拡散モデルの強力な生成能力を利用して,対象ラベルを2次元意味テンソルに符号化する2D-TGAFフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-19T02:08:48Z)
Interpreting Emergent Planning in Model-Free Reinforcement Learning [13.820891288919002]
モデルフリー強化学習エージェントが計画を学ぶことができるという最初の証拠を提示する。これは、ソコバンのモデルフリーエージェントに概念ベースの解釈可能性に基づく方法論を適用することで達成される。
論文参考訳（メタデータ） (2025-04-02T16:24:23Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文参考訳（メタデータ） (2024-05-23T04:52:02Z)
Deception in Reinforced Autonomous Agents [30.510998478048723]
大型言語モデル(LLM)をベースとしたエージェントが微妙な騙しを行う能力について検討する。この行動は、ブラタントな嘘や意図しない幻覚とは異なり、検出が難しい。 2つのLDMが対立する役割を担っている立法環境を模倣した敵対的テストベッドを構築した。
論文参考訳（メタデータ） (2024-05-07T13:55:11Z)
Analyzing Intentional Behavior in Autonomous Agents under Uncertainty [3.0099979365586265]
不確実な環境での自律的な意思決定の原則的説明責任は、否定的な設計と実際の事故との意図的な結果の区別を必要とする。本稿では、意図的行動の証拠を定量的に測定し、自律エージェントの行動を分析することを提案する。ケーススタディでは,本手法が「意図的」交通衝突と「事故的」交通衝突を区別できることを示す。
論文参考訳（メタデータ） (2023-07-04T07:36:11Z)
Power-seeking can be probable and predictive for trained agents [3.616948583169635]
パワーセーキング行動は、先進的なAIによるリスクの主な原因である。トレーニングプロセスがパワーセーキングインセンティブにどのように影響するかを検討する。電力需要のインセンティブは予測可能であり,予測可能であることを示す。
論文参考訳（メタデータ） (2023-04-13T13:29:01Z)
Towards Reasonable Budget Allocation in Untargeted Graph Structure Attacks via Gradient Debias [50.628150015907565]
クロスエントロピー損失関数は、分類タスクにおける摂動スキームを評価するために用いられる。従来の手法ではノードレベルの分類モデルを攻撃する攻撃対象として負のクロスエントロピー損失を用いる。本稿では、予算配分の観点から、これまでの不合理な攻撃目標について論じる。
論文参考訳（メタデータ） (2023-03-29T13:02:02Z)
Learning to Generate All Feasible Actions [4.333208181196761]
アクションマッピングは、学習プロセスを2つのステップに分割する新しいアプローチである。本稿では、実現可能性モデルの自己教師型クエリにより、実現可能なすべてのアクションを生成することを学ぶことで、実現可能性部分に焦点を当てる。エージェントが接続不能な実行可能なアクションセット間でアクションを生成する能力を示す。
論文参考訳（メタデータ） (2023-01-26T23:15:51Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models [48.93128542994217]
ブラックボックスニューラルパスランキングモデルに対する模倣逆攻撃を提案する。重要クエリ/候補を列挙することで,対象経路ランキングモデルを透明化し,模倣することができることを示す。また,一対の目的関数によって強化された革新的な勾配に基づく攻撃手法を提案し,敵の引き金を発生させる。
論文参考訳（メタデータ） (2022-09-14T09:10:07Z)
A Tale of HodgeRank and Spectral Method: Target Attack Against Rank Aggregation Is the Fixed Point of Adversarial Game [153.74942025516853]
ランクアグリゲーション手法の本質的な脆弱性は文献ではよく研究されていない。本稿では,ペアデータの変更による集計結果の指定を希望する目的のある敵に焦点をあてる。提案した標的攻撃戦略の有効性は,一連の玩具シミュレーションと実世界のデータ実験によって実証された。
論文参考訳（メタデータ） (2022-09-13T05:59:02Z)
On Almost-Sure Intention Deception Planning that Exploits Imperfect Observers [24.11353445650682]
意図的な騙しは、エージェントの意図や目的に対する間違った信念に敵を欺く戦略を計算することを含む。本稿では,意図的騙しを伴う確率的計画問題の類型を考察し,防御者の限定的な感覚的モダリティをどのように活用するかを考察する。
論文参考訳（メタデータ） (2022-09-01T16:38:03Z)
Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文参考訳（メタデータ） (2022-06-23T16:36:13Z)
Path-Specific Objectives for Safer Agent Incentives [15.759504531768219]
状態の'delicate'部分で設定を記述します。次にエージェントを訓練し、状態の繊細な部分によって媒介されない期待されたリターンに対する行動の因果効果を最大化する。結果として生じるエージェントは、繊細な状態を制御するインセンティブを持っていない。
論文参考訳（メタデータ） (2022-04-21T11:01:31Z)
Targeted Attack on Deep RL-based Autonomous Driving with Learned Visual Patterns [18.694795507945603]
近年の研究では、敵の攻撃に対する深い強化学習を通じて学んだコントロールポリシーの脆弱性が実証されている。本研究では, 物理的対象物に配置した視覚的学習パターンを用いて, 標的攻撃の実現可能性について検討する。
論文参考訳（メタデータ） (2021-09-16T04:59:06Z)
Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文参考訳（メタデータ） (2021-09-14T14:56:23Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)
Heterogeneous-Agent Trajectory Forecasting Incorporating Class Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文参考訳（メタデータ） (2021-04-26T10:28:34Z)
SPOTTER: Extending Symbolic Planning Operators through Targeted Reinforcement Learning [24.663586662594703]
シンボリックプランニングモデルにより、意思決定エージェントは任意の方法でアクションをシーケンスし、ダイナミックドメインでさまざまな目標を達成できます。強化学習アプローチはそのようなモデルを必要とせず、環境を探索して報酬を集めることでドメインダイナミクスを学ぶ。我々は,当初エージェントが到達できない目標を達成するために必要な新たなオペレータを見つけることで,計画エージェント("spot")の強化とサポートにrlを使用するspotterという統合フレームワークを提案する。
論文参考訳（メタデータ） (2020-12-24T00:31:02Z)
Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文参考訳（メタデータ） (2020-11-30T16:39:39Z)
Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文参考訳（メタデータ） (2020-10-26T16:00:47Z)
On the model-based stochastic value gradient for continuous reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文参考訳（メタデータ） (2020-08-28T17:58:29Z)
Online Bayesian Goal Inference for Boundedly-Rational Planning Agents [46.60073262357339]
本稿では,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界な有界プランナーとして機能する。我々は,これらのモデルのオンライン再計画仮定を利用するシーケンシャルモンテカルロアルゴリズムであるシーケンシャル逆計画探索(SIPS)を開発した。
論文参考訳（メタデータ） (2020-06-13T01:48:10Z)
Model-based Reinforcement Learning for Decentralized Multiagent Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文参考訳（メタデータ） (2020-03-15T19:49:20Z)
Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文参考訳（メタデータ） (2020-02-12T19:34:51Z)
Combating False Negatives in Adversarial Imitation Learning [67.99941805086154]
敵対的模倣学習では、エージェントエピソードと、所望の行動を表す専門家のデモンストレーションとを区別するために、判別器を訓練する。訓練された方針がより成功することを学ぶと、負の例は専門家の例とますます似ている。本研究では,偽陰性の影響を緩和し,BabyAI環境上で検証する手法を提案する。
論文参考訳（メタデータ） (2020-02-02T14:56:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。