論文の概要: Model-Free RL Agents Demonstrate System 1-Like Intentionality
- arxiv url: http://arxiv.org/abs/2501.18299v1
- Date: Thu, 30 Jan 2025 12:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:05.080984
- Title: Model-Free RL Agents Demonstrate System 1-Like Intentionality
- Title(参考訳): Model-Free RL Agents Demonstrate System 1-like Intentionality
- Authors: Hal Ashton, Matija Franklin,
- Abstract要約: モデルフリー強化学習エージェントは、人間の認知におけるシステム1プロセスに類推できる行動を示す。
本稿では,モデルフリーとモデルベースRLを区別するために,システム1とシステム2の分岐を結合する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.427085062620215
- License:
- Abstract: This paper argues that model-free reinforcement learning (RL) agents, while lacking explicit planning mechanisms, exhibit behaviours that can be analogised to System 1 ("thinking fast") processes in human cognition. Unlike model-based RL agents, which operate akin to System 2 ("thinking slow") reasoning by leveraging internal representations for planning, model-free agents react to environmental stimuli without anticipatory modelling. We propose a novel framework linking the dichotomy of System 1 and System 2 to the distinction between model-free and model-based RL. This framing challenges the prevailing assumption that intentionality and purposeful behaviour require planning, suggesting instead that intentionality can manifest in the structured, reactive behaviours of model-free agents. By drawing on interdisciplinary insights from cognitive psychology, legal theory, and experimental jurisprudence, we explore the implications of this perspective for attributing responsibility and ensuring AI safety. These insights advocate for a broader, contextually informed interpretation of intentionality in RL systems, with implications for their ethical deployment and regulation.
- Abstract(参考訳): 本稿では、モデルフリー強化学習(RL)エージェントは、明確な計画機構を欠いているが、人間の認知におけるシステム1(高速な思考)プロセスに類似できる行動を示す。
モデルベースRLエージェントは、計画のための内部表現を活用することによって、システム2(「遅い」推論に類似して動作するが、モデルフリーエージェントは予測モデルなしで環境刺激に反応する。
本稿では,モデルフリーとモデルベースRLを区別するために,システム1とシステム2の分岐を結合する新しいフレームワークを提案する。
このフレーミングは、意図的行動と目的的行動が計画を必要とするという一般的な仮定に挑戦し、代わりに、意図的行動がモデルフリーエージェントの構造化されたリアクティブな行動に現れることを示唆する。
認知心理学、法理論、実験法学からの学際的洞察を生かして、この視点が責任の帰属やAIの安全性の確保にもたらす意味を考察する。
これらの洞察は、RLシステムにおける意図のより広い、文脈的に理解された解釈を提唱し、倫理的展開と規制に影響を及ぼす。
関連論文リスト
- On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Causal Abstraction in Model Interpretability: A Compact Survey [5.963324728136442]
因果的抽象化は、モデル行動の基礎となる因果的メカニズムを理解し説明するための原則化されたアプローチを提供する。
本研究は, 因果的抽象の領域を掘り下げ, その理論的基礎, 実践的応用, モデル解釈可能性の分野への含意について考察する。
論文 参考訳(メタデータ) (2024-10-26T12:24:28Z) - Unified Causality Analysis Based on the Degrees of Freedom [1.2289361708127877]
本稿では,システム間の因果関係を同定する統一手法を提案する。
システムの自由度を分析することで、私たちのアプローチは因果的影響と隠れた共同設立者の両方についてより包括的な理解を提供する。
この統合されたフレームワークは、理論モデルとシミュレーションを通じて検証され、その堅牢性とより広範な応用の可能性を示す。
論文 参考訳(メタデータ) (2024-10-25T10:57:35Z) - Co-designing heterogeneous models: a distributed systems approach [0.40964539027092917]
本稿では3つの要素に基づく異種システムに適したモデリング手法を提案する。
モデルとは何かという推論主義的な解釈、分散システムのメタファ、そして協調設計サイクルは、モデルの実践的な設計と構築を記述している。
本手法の適合性について,3つの異なるセキュリティ指向モデルを用いて検討する。
論文 参考訳(メタデータ) (2024-07-10T13:35:38Z) - A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。
近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。
我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文 参考訳(メタデータ) (2024-06-04T07:22:12Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。