論文の概要: On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation
- arxiv url: http://arxiv.org/abs/2602.21424v1
- Date: Tue, 24 Feb 2026 22:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.632114
- Title: On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation
- Title(参考訳): 政策転換下におけるてんかん行動の構造的非保存について
- Authors: Alexander Galozy,
- Abstract要約: このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) agents under partial observability often condition actions on internally accumulated information such as memory or inferred latent context. We formalise such information-conditioned interaction patterns as behavioural dependency: variation in action selection with respect to internal information under fixed observations. This induces a probe-relative notion of $ε$-behavioural equivalence and a within-policy behavioural distance that quantifies probe sensitivity. We establish three structural results. First, the set of policies exhibiting non-trivial behavioural dependency is not closed under convex aggregation. Second, behavioural distance contracts under convex combination. Third, we prove a sufficient local condition under which gradient ascent on a skewed mixture objective decreases behavioural distance when a dominant-mode gradient aligns with the direction of steepest contraction. Minimal bandit and partially observable gridworld experiments provide controlled witnesses of these mechanisms. In the examined settings, behavioural distance decreases under convex aggregation and under continued optimisation with skewed latent priors, and in these experiments it precedes degradation under latent prior shift. These results identify structural conditions under which probe-conditioned behavioural separation is not preserved under common policy transformations.
- Abstract(参考訳): 部分的可観測性下での強化学習(RL)エージェントは、しばしばメモリや推論潜在コンテキストなどの内部的に蓄積された情報に対して動作を条件付ける。
我々は,このような情報条件の相互作用パターンを行動依存として定式化し,内部情報に対する行動選択の変動を定式化する。
これにより、$ε$-ビヘイビア同値のプローブ相対的な概念と、プローブ感度を定量化する政治内行動距離が導かれる。
3つの構造的な結果を確立します。
第一に、非自明な振る舞い依存を示す一連のポリシーは凸アグリゲーションの下では閉じられません。
第二に、凸結合による行動距離契約。
第3に,主モード勾配が最も急な収縮方向と整合すると,スキュー混合対象物への勾配上昇が挙動距離を減少させる十分な局所条件を証明した。
最小の帯域幅と部分的に観測可能なグリッドワールド実験は、これらのメカニズムの制御された目撃者を提供する。
検討した条件では, 凸凝集下での挙動距離は減少し, 歪んだ潜伏前と連続的に最適化され, これらの実験では潜伏前偏移下での劣化に先行する。
これらの結果は、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件を特定する。
関連論文リスト
- Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution [3.0242762196828448]
大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。
モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
論文 参考訳(メタデータ) (2026-02-04T06:13:11Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - Causal Discovery with Mixed Latent Confounding via Precision Decomposition [0.0]
微分可能およびスコアベースDAG学習者は、グローバル潜伏効果を因果エッジと誤解釈することができる。
我々は,これらの役割を分離したモジュール型高精度パイプラインであるtextscDCL-DECORを提案する。
論文 参考訳(メタデータ) (2025-12-31T08:03:41Z) - Variational Learning of Disentangled Representations [2.3713407563738063]
遠方表現は、実験条件間で共有される変動の要因を条件固有である要因と区別することを可能にする。
DISCoVeRは条件不変因子と条件固有因子を明確に分離する新しい変分フレームワークである。
DISCoVeRは, 合成データセット, 自然画像, 単一セルRNA-seqデータにおいて, 歪みを改善できることを示す。
論文 参考訳(メタデータ) (2025-06-20T17:36:12Z) - Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。
活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。
このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文 参考訳(メタデータ) (2025-03-14T07:58:26Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。