Fugu-MT 論文翻訳(概要): On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation

論文の概要: On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation

arxiv url: http://arxiv.org/abs/2602.21424v1
Date: Tue, 24 Feb 2026 22:55:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.632114
Title: On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation
Title（参考訳）: 政策転換下におけるてんかん行動の構造的非保存について
Authors: Alexander Galozy,
Abstract要約: このような情報条件の相互作用パターンを振る舞い依存として定式化する。これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
参考スコア（独自算出の注目度）: 51.56484100374058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) agents under partial observability often condition actions on internally accumulated information such as memory or inferred latent context. We formalise such information-conditioned interaction patterns as behavioural dependency: variation in action selection with respect to internal information under fixed observations. This induces a probe-relative notion of $ε$-behavioural equivalence and a within-policy behavioural distance that quantifies probe sensitivity. We establish three structural results. First, the set of policies exhibiting non-trivial behavioural dependency is not closed under convex aggregation. Second, behavioural distance contracts under convex combination. Third, we prove a sufficient local condition under which gradient ascent on a skewed mixture objective decreases behavioural distance when a dominant-mode gradient aligns with the direction of steepest contraction. Minimal bandit and partially observable gridworld experiments provide controlled witnesses of these mechanisms. In the examined settings, behavioural distance decreases under convex aggregation and under continued optimisation with skewed latent priors, and in these experiments it precedes degradation under latent prior shift. These results identify structural conditions under which probe-conditioned behavioural separation is not preserved under common policy transformations.
Abstract（参考訳）: 部分的可観測性下での強化学習(RL)エージェントは、しばしばメモリや推論潜在コンテキストなどの内部的に蓄積された情報に対して動作を条件付ける。我々は,このような情報条件の相互作用パターンを行動依存として定式化し,内部情報に対する行動選択の変動を定式化する。これにより、$ε$-ビヘイビア同値のプローブ相対的な概念と、プローブ感度を定量化する政治内行動距離が導かれる。 3つの構造的な結果を確立します。第一に、非自明な振る舞い依存を示す一連のポリシーは凸アグリゲーションの下では閉じられません。第二に、凸結合による行動距離契約。第3に,主モード勾配が最も急な収縮方向と整合すると,スキュー混合対象物への勾配上昇が挙動距離を減少させる十分な局所条件を証明した。最小の帯域幅と部分的に観測可能なグリッドワールド実験は、これらのメカニズムの制御された目撃者を提供する。検討した条件では, 凸凝集下での挙動距離は減少し, 歪んだ潜伏前と連続的に最適化され, これらの実験では潜伏前偏移下での劣化に先行する。これらの結果は、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件を特定する。

関連論文リスト

Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions [0.0]
ゲノミクスの実験では、交換可能性はしばしば、対象変数を「影響を受けない」ままにしておく介入のサブセットにのみ保持される。 i)「影響のない」キャリブレーション例の誤分類が、明示的な関数$g(,n)$の汚染分数とキャリブレーションセットサイズを介してどのようにカバレッジを劣化させるか、および (ii) 2つの後続指標$Z_a,i=mathbf1iinmathrmdesc(a)$のみを推定するタスク駆動部分因果学習の定式化。
論文参考訳（メタデータ） (2026-03-02T18:58:22Z)
Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution [3.0242762196828448]
大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
論文参考訳（メタデータ） (2026-02-04T06:13:11Z)
Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-29T18:06:53Z)
Causal Discovery with Mixed Latent Confounding via Precision Decomposition [0.0]
微分可能およびスコアベースDAG学習者は、グローバル潜伏効果を因果エッジと誤解釈することができる。我々は,これらの役割を分離したモジュール型高精度パイプラインであるtextscDCL-DECORを提案する。
論文参考訳（メタデータ） (2025-12-31T08:03:41Z)
Variational Learning of Disentangled Representations [2.3713407563738063]
遠方表現は、実験条件間で共有される変動の要因を条件固有である要因と区別することを可能にする。 DISCoVeRは条件不変因子と条件固有因子を明確に分離する新しい変分フレームワークである。 DISCoVeRは, 合成データセット, 自然画像, 単一セルRNA-seqデータにおいて, 歪みを改善できることを示す。
論文参考訳（メタデータ） (2025-06-20T17:36:12Z)
Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文参考訳（メタデータ） (2025-03-14T07:58:26Z)
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文参考訳（メタデータ） (2023-03-02T08:57:35Z)
Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文参考訳（メタデータ） (2023-01-19T18:39:48Z)
Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。 GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文参考訳（メタデータ） (2022-06-08T21:32:50Z)
Towards Robust and Adaptive Motion Forecasting: A Causal Representation Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文参考訳（メタデータ） (2021-11-29T18:59:09Z)
Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。我々は、ある政策の境界を推定するアプローチを開発する。より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文参考訳（メタデータ） (2020-02-11T16:18:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。