論文の概要: Symmetric Behavior Regularization via Taylor Expansion of Symmetry
- arxiv url: http://arxiv.org/abs/2508.04225v2
- Date: Thu, 07 Aug 2025 02:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 11:49:27.11014
- Title: Symmetric Behavior Regularization via Taylor Expansion of Symmetry
- Title(参考訳): テイラーの対称性拡張による対称性挙動の規則化
- Authors: Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai,
- Abstract要約: 対称発散は正規化として解析政策を許さず、損失として数値問題を生じさせることを示した。
対称分岐を持つ最初の実用的BRPOアルゴリズムであるSymmetric $f$ Actor-Critic (S$f$-AC)を提案する。
- 参考スコア(独自算出の注目度): 8.032060509915821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces symmetric divergences to behavior regularization policy optimization (BRPO) to establish a novel offline RL framework. Existing methods focus on asymmetric divergences such as KL to obtain analytic regularized policies and a practical minimization objective. We show that symmetric divergences do not permit an analytic policy as regularization and can incur numerical issues as loss. We tackle these challenges by the Taylor series of $f$-divergence. Specifically, we prove that an analytic policy can be obtained with a finite series. For loss, we observe that symmetric divergences can be decomposed into an asymmetry and a conditional symmetry term, Taylor-expanding the latter alleviates numerical issues. Summing together, we propose Symmetric $f$ Actor-Critic (S$f$-AC), the first practical BRPO algorithm with symmetric divergences. Experimental results on distribution approximation and MuJoCo verify that S$f$-AC performs competitively.
- Abstract(参考訳): 本稿では、動作規則化ポリシー最適化(BRPO)に対称的な分岐を導入し、新しいオフラインRLフレームワークを確立する。
既存の方法は、分析正則化ポリシーと実用最小化目的を得るために、KLのような非対称な発散に焦点を当てている。
対称発散は正規化として解析政策を許さず、損失として数値問題を生じさせることを示した。
このような課題にTaylor級数$f$-divergenceで対処する。
具体的には、解析ポリシーが有限級数で得られることを証明する。
損失に対して、対称な発散は非対称性と条件付き対称性の項に分解でき、テイラーは後者を拡張して数値問題を緩和する。
そこで我々は,Symmetric $f$ Actor-Critic (S$f$-AC)を提案する。
分布近似と MuJoCo による実験結果から,S$f$-AC の競合性能が確認された。
関連論文リスト
- Joint Asymmetric Loss for Learning with Noisy Labels [95.14298444251044]
対称的な損失は通常、過度に厳格な制約のために不適合な問題に悩まされる。
APL内では、対称的な損失がうまく拡張され、高度なロバストな損失関数が得られた。
JAL(Joint Asymmetric Loss)と呼ばれる新しいロバスト損失フレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-23T16:57:43Z) - Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias [55.72269695392027]
本稿では,線形系を解くためにエントロピックミラー降下を適用することに焦点を当てる。
収束解析の主な課題は、領域の非有界性に起因する。
制限的な仮定を課さずにこれを克服するために、Polyak型階段の変種を導入する。
論文 参考訳(メタデータ) (2025-05-05T12:33:18Z) - Predicting symmetries of quantum dynamics with optimal samples [41.42817348756889]
量子力学における対称性の同定は、量子技術に深く影響する重要な課題である。
グループ表現理論とサブグループ仮説テストを組み合わせた統合フレームワークを導入し,これらの対称性を最適効率で予測する。
我々は,並列戦略が適応プロトコルや不定値順序プロトコルと同じ性能を達成することを証明した。
論文 参考訳(メタデータ) (2025-02-03T15:57:50Z) - Variational Inference Failures Under Model Symmetries: Permutation Invariant Posteriors for Bayesian Neural Networks [43.88179780450706]
重み空間置換対称性が変分推論に与える影響について検討する。
置換不変変分後部を構築するための対称対称性機構を考案する。
本研究は, 対称性分布が真の後部と厳密に適合していること, 元のELBO目標を用いてトレーニングできること, を示す。
論文 参考訳(メタデータ) (2024-08-10T09:06:34Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Global optimality under amenable symmetry constraints [0.5656581242851759]
凸性、群、および典型的には無限次元のベクトル空間の間の相互作用を示す。
このツールキットを不変最適性問題に適用する。
これは、不変カーネルの平均埋め込みとリスク-最適不変結合に関する新しい結果をもたらす。
論文 参考訳(メタデータ) (2024-02-12T12:38:20Z) - Equivariant Symmetry Breaking Sets [0.6475999521931204]
等価ニューラルネットワーク(ENN)は、基礎となる対称性を含むアプリケーションに非常に効果的であることが示されている。
完全同変で、自発対称性の破れに対処する最初のフレームワークである新しい対称性破れフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T02:35:11Z) - Asymmetric Norms to Approximate the Minimum Action Distance [9.040428950629153]
本稿では,報酬のないマルコフ決定過程の状態表現について述べる。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
論文 参考訳(メタデータ) (2023-12-16T00:50:17Z) - Symmetry-resolved Entanglement Entropy, Spectra & Boundary Conformal
Field Theory [0.0]
我々は、1+1$D共形場理論(CFT)の基底状態における1つの単一区間における対称性分解エンタングルメントエントロピー(EE)の包括的解析を行う。
我々は、境界CFTアプローチを用いて、全脳の研究を行い、SREEの普遍的な先行順序行動を見つけることができる。
有限対称性群の下でのCFT不変量に対する対称性分解エンタングルメントスペクトルを導出する。
論文 参考訳(メタデータ) (2023-09-06T18:03:14Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - When Random Tensors meet Random Matrices [50.568841545067144]
本稿では,ガウス雑音を伴う非対称次数-$d$スパイクテンソルモデルについて検討する。
検討したモデルの解析は、等価なスパイクされた対称テクシットブロック-ワイドランダム行列の解析に起因していることを示す。
論文 参考訳(メタデータ) (2021-12-23T04:05:01Z) - Symmetry Breaking in Symmetric Tensor Decomposition [44.181747424363245]
我々は、対称テンソルの点階分解を計算する非対称問題を考える。
損失関数の臨界点が標準手法によって検出されることを示す。
論文 参考訳(メタデータ) (2021-03-10T18:11:22Z) - On Linear Stochastic Approximation: Fine-grained Polyak-Ruppert and
Non-Asymptotic Concentration [115.1954841020189]
The inequality and non-asymptotic properties of approximation procedure with Polyak-Ruppert averaging。
一定のステップサイズと無限大となる反復数を持つ平均的反復数に対する中心極限定理(CLT)を証明する。
論文 参考訳(メタデータ) (2020-04-09T17:54:18Z) - The quantum marginal problem for symmetric states: applications to
variational optimization, nonlocality and self-testing [0.0]
対称$d$レベルのシステムに対する量子境界問題の解法を提案する。
量子情報中心問題における本手法の適用性について,いくつかの事例研究で概説する。
論文 参考訳(メタデータ) (2020-01-13T18:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。