論文の概要: From Kicking to Causality: Simulating Infant Agency Detection with a Robust Intrinsic Reward
- arxiv url: http://arxiv.org/abs/2507.15106v1
- Date: Sun, 20 Jul 2025 20:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.19835
- Title: From Kicking to Causality: Simulating Infant Agency Detection with a Robust Intrinsic Reward
- Title(参考訳): キッキングから因果性:ロバストな内因性逆流による乳児房検出のシミュレート
- Authors: Xia Xu, Jochen Triesch,
- Abstract要約: 因果行動影響スコア(Causal Action Influence Score, CAIS)は因果推論に根ざした本質的な報酬である。
CAISは、エージェントがこのノイズをフィルタリングし、その影響を特定し、正しいポリシーを学ぶことができる。
我々は、因果関係を明示的に推論することが、堅牢なエージェンシー感覚を発達させる重要なメカニズムであると結論付けている。
- 参考スコア(独自算出の注目度): 4.003948517224975
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While human infants robustly discover their own causal efficacy, standard reinforcement learning agents remain brittle, as their reliance on correlation-based rewards fails in noisy, ecologically valid scenarios. To address this, we introduce the Causal Action Influence Score (CAIS), a novel intrinsic reward rooted in causal inference. CAIS quantifies an action's influence by measuring the 1-Wasserstein distance between the learned distribution of sensory outcomes conditional on that action, $p(h|a)$, and the baseline outcome distribution, $p(h)$. This divergence provides a robust reward that isolates the agent's causal impact from confounding environmental noise. We test our approach in a simulated infant-mobile environment where correlation-based perceptual rewards fail completely when the mobile is subjected to external forces. In stark contrast, CAIS enables the agent to filter this noise, identify its influence, and learn the correct policy. Furthermore, the high-quality predictive model learned for CAIS allows our agent, when augmented with a surprise signal, to successfully reproduce the "extinction burst" phenomenon. We conclude that explicitly inferring causality is a crucial mechanism for developing a robust sense of agency, offering a psychologically plausible framework for more adaptive autonomous systems.
- Abstract(参考訳): 人間の幼児は自身の因果効果をしっかりと発見するが、相関に基づく報酬への依存が騒々しく、生態学的に有効なシナリオで失敗するため、標準的な強化学習エージェントは脆弱のままである。
そこで本研究では、因果推論に根ざした本質的な報酬であるCausal Action Influence Score(CAIS)を紹介する。
CAISは、その作用に条件づけられた知覚結果の学習分布である$p(h|a)$とベースライン結果分布である$p(h)$の間の1-ワッサーシュタイン距離を測定することで、作用の影響を定量化する。
この分散は、エージェントの因果的影響と環境騒音を分離する堅牢な報酬を与える。
本手法は,外力を受けると,相関に基づく知覚的報酬が完全に失敗する,シミュレーションされた幼児移動環境において試行する。
対照的に、CAISはエージェントがこのノイズをフィルタリングし、その影響を特定し、正しいポリシーを学ぶことができる。
さらに、CAISで学習した高品質な予測モデルにより、サプライズ信号で拡張した場合、エージェントは「露出バースト」現象をうまく再現することができる。
因果関係を明示的に推論することは、より適応的な自律システムのための心理的に妥当な枠組みを提供する、堅牢なエージェント感覚を開発するための決定的なメカニズムである、と結論付けている。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Inferring Individual Direct Causal Effects Under Heterogeneous Peer Influence [10.609670658904562]
ネットワークにおける因果推論は、ユニットの結果がピアの治療や結果に影響された場合に発生する干渉を考慮に入れなければならない。
本稿では,ネットワーク構造,干渉条件,因果依存性に関する様々な仮定を捉えることができるネットワークの構造因果モデルを提案する。
因果モデルを用いて、潜在的な異種コンテキストを見つけ、個別の因果効果を推定する新しいグラフニューラルネットワークに基づく推定器を提案する。
論文 参考訳(メタデータ) (2023-05-27T13:57:26Z) - Demystifying Causal Features on Adversarial Examples and Causal
Inoculation for Robust Network by Adversarial Instrumental Variable
Regression [32.727673706238086]
本稿では、因果的な観点から、敵の訓練を受けたネットワークにおける予期せぬ脆弱性を掘り下げる手法を提案する。
展開することで,不偏環境下での敵予測の因果関係を推定する。
その結果, 推定因果関係は, 正解率の正解率と高い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-03-02T08:18:22Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z) - Exploiting the Relationship Between Kendall's Rank Correlation and
Cosine Similarity for Attribution Protection [21.341303776931532]
まず、期待されるケンドールのランク相関がコサイン類似性と正に相関していることを示し、帰属方向が帰属ロバスト性の鍵であることを示す。
解析の結果,IGRは自然試料とそれに対応する摂動標本に対して,同じ活性化状態のニューロンを刺激することが明らかとなった。
論文 参考訳(メタデータ) (2022-05-15T13:08:50Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Adversarial Robustness through the Lens of Causality [105.51753064807014]
ディープニューラルネットワークの敵対的脆弱性は、機械学習において大きな注目を集めている。
我々は、因果関係を敵対的脆弱性の軽減に組み込むことを提案する。
我々の手法は、敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。
論文 参考訳(メタデータ) (2021-06-11T06:55:02Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。