論文の概要: A Contractive Feedback Semantics for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.24759v1
- Date: Sat, 23 May 2026 22:39:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.368148
- Title: A Contractive Feedback Semantics for Reinforcement Learning
- Title(参考訳): 強化学習のための契約型フィードバックセマンティクス
- Authors: Zuyuan Zhang,
- Abstract要約: 離散強化学習は、通常、閉マルコフ決定過程のベルマン方程式によって示される。
本稿では,一段階決定過程をオープンコンポーネントとして扱い,契約的フィードバックループを閉じることで,無限水平政策評価を得るという構成的視点を開発する。
その中心的な主張は、すべての RL 準同型が大域的トレースされたモノイダル圏を形成するのではなく、ベルマン評価の割引は、許容される保護回路のクラスに対する契約的なフィードバック意味論を認めることである。
- 参考スコア(独自算出の注目度): 4.183815378660548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discounted reinforcement learning is usually presented through Bellman equations on closed Markov decision processes. This paper develops a compositional view: a one-step decision process is treated as an open stochastic component, and infinite-horizon policy evaluation is obtained by closing a contractive feedback loop. The resulting semantics assigns typed Bellman transformers to open components, interprets series and parallel wiring as composition and tensoring of transformers, and interprets feedback as an admissible guarded Banach trace realized by a unique fixed point. This perspective yields three theoretical consequences. First, approximate component equivalence is a contextual congruence for admitted well-typed guarded one-hole contexts: local operator error remains controlled after plugging the component into a surrounding circuit that uses the hole once and whose feedback nodes have certified uniform guardedness. Second, exact and approximate state abstractions become commuting or near-commuting coalgebraic diagrams, giving value-preservation and explicit sup-norm distortion bounds. Third, under monotone $ω$-continuous contract-transformer semantics, safety, risk, and resource specifications can be represented as quantale-valued contracts, where local inductive bounds lift through wiring and feedback by least-fixed-point reasoning. Its central claim is not that all RL morphisms form a global traced monoidal category, but that discounted Bellman evaluation admits a contractive feedback semantics on the admissible class of guarded circuits.
- Abstract(参考訳): 離散強化学習は、通常、閉マルコフ決定過程のベルマン方程式によって示される。
本稿では,一段階決定過程を開放確率成分として扱い,契約的フィードバックループを閉じて無限水平政策評価を求める。
得られたセマンティクスは、タイプされたベルマン変換器をオープンコンポーネントに割り当て、直列および並列配線をコンポジションとテンソルとして解釈し、ユニークな固定点によって実現された許容可能なガードされたバナッハトレースとしてフィードバックを解釈する。
この見方は3つの理論的な結果をもたらす。
局所演算子エラーは、コンポーネントを1回だけホールを使用し、フィードバックノードが一様ガード性を確認した周囲の回路に接続した後も制御される。
第二に、厳密で近似的な状態抽象化は可換あるいは近可換な結合代数図形となり、値保存と明示的な超ノルム歪み境界を与える。
第三に、単調な$ω$-continuous contract-transformerのセマンティクス、安全性、リスク、リソース仕様は量子値のコントラクトとして表現できる。
その中心的な主張は、すべての RL 準同型が大域的トレースされたモノイダル圏を形成するのではなく、ベルマン評価の割引は、許容される保護回路のクラスに対する契約的なフィードバック意味論を認めることである。
関連論文リスト
- Quotient-Categorical Representations for Bellman-Compatible Average-Reward Distributional Reinforcement Learning [8.988097534171995]
本稿では、状態付きバイアス法則を共通翻訳まで特定する商空間定式化を導入する。
同期の正確な更新は、商法レベルでゲイン非依存であることを示す。
論文 参考訳(メタデータ) (2026-05-11T22:17:09Z) - Explicit Dropout: Deterministic Regularization for Transformer Architectures [55.09895958546215]
ドロップアウトはディープラーニングにおいて広く使われている正規化手法であるが、その効果は一般的にマスキングによって実現される。
トレーニング損失に直接組み込まれた加算正則化器としてドロップアウトを表現する決定論的定式化を提案する。
論文 参考訳(メタデータ) (2026-04-22T12:45:51Z) - In-Context Symbolic Regression for Robustness-Improved Kolmogorov-Arnold Networks [3.7163623763519733]
シンボリック回帰は、ブラックボックス予測器を機械学習で検査および検証可能な分析式に置き換えることを目的としている。
Kolmogorov-Arnold Pursuit Networks (KANs) はこの目的に適している。
しかし、実際には記号抽出はボトルネックであり、標準のkan-to-symbolアプローチは各学習エッジ関数に微妙な分離で適合する。
論文 参考訳(メタデータ) (2026-03-16T13:21:26Z) - Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Fitted Q Evaluation Without Bellman Completeness via Stationary Weighting [40.322273308230606]
この仮定の必要性は、基本的な標準ミスマッチに由来する。
定常密度比の推定値を用いて各回帰ステップを再重み付けする。
これにより、実現可能性やベルマン完全性の欠如を強く評価できる。
論文 参考訳(メタデータ) (2025-12-29T19:04:40Z) - Verifying Closed-Loop Contractivity of Learning-Based Controllers via Partitioning [52.23804865017831]
本稿では,ニューラルネットワークによるパラメータ化を行う非線形制御系における閉ループ収縮の検証問題に対処する。
我々は、対称メッツラー行列の優越的固有値が非正であることを確かめるために、閉ループの縮約性に対するトラクタブルでスケーラブルな十分条件を導出する。
論文 参考訳(メタデータ) (2025-12-01T23:06:56Z) - Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。
そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。
本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文 参考訳(メタデータ) (2025-06-02T18:07:55Z) - Inducing and Using Alignments for Transition-based AMR Parsing [51.35194383275297]
複雑なパイプラインに依存することなくノード間アライメントを学習するAMRのためのニューラルアライメント器を提案する。
我々は,AMR3.0のビームサーチを必要とせず,銀のトレーニングされた性能に適合する,金のみのトレーニングモデルのための新しい最先端技術を得た。
論文 参考訳(メタデータ) (2022-05-03T12:58:36Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。