Fugu-MT 論文翻訳(概要): SymCircuit: Bayesian Structure Inference for Tractable Probabilistic Circuits via Entropy-Regularized Reinforcement Learning

論文の概要: SymCircuit: Bayesian Structure Inference for Tractable Probabilistic Circuits via Entropy-Regularized Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.20392v1
Date: Fri, 20 Mar 2026 18:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:38.883346
Title: SymCircuit: Bayesian Structure Inference for Tractable Probabilistic Circuits via Entropy-Regularized Reinforcement Learning
Title（参考訳）: SymCircuit:エントロピー規則化強化学習によるトラクタブル確率回路のベイズ構造推定
Authors: Y. Sungtaek Ju,
Abstract要約: 確率回路(PC)構造学習は、非可逆的、局所的最適決定を行う欲求アルゴリズムによって妨げられる。本研究では,強欲探索をエントロピー正規化強化学習を通じて学習した学習的生成ポリシーに置き換えるSymCircuitを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Probabilistic circuit (PC) structure learning is hampered by greedy algorithms that make irreversible, locally optimal decisions. We propose SymCircuit, which replaces greedy search with a learned generative policy trained via entropy-regularized reinforcement learning. Instantiating the RL-as-inference framework in the PC domain, we show the optimal policy is a tempered Bayesian posterior, recovering the exact posterior when the regularization temperature is set inversely proportional to the dataset size. The policy is implemented as SymFormer, a grammar-constrained autoregressive Transformer with tree-relative self-attention that guarantees valid circuits at every generation step. We introduce option-level REINFORCE, restricting gradient updates to structural decisions rather than all tokens, yielding an SNR (signal to noise ratio) improvement and >10 times sample efficiency gain on the NLTCS dataset. A three-layer uncertainty decomposition (structural via model averaging, parametric via the delta method, leaf via conjugate Dirichlet-Categorical propagation) is grounded in the multilinear polynomial structure of PC outputs. On NLTCS, SymCircuit closes 93% of the gap to LearnSPN; preliminary results on Plants (69 variables) suggest scalability.
Abstract（参考訳）: 確率回路(PC)構造学習は、非可逆的、局所的最適決定を行う欲求アルゴリズムによって妨げられる。本研究では,強欲探索をエントロピー正規化強化学習を通じて学習した学習的生成ポリシーに置き換えるSymCircuitを提案する。 PC領域におけるRL-as-inferenceフレームワークを検証した結果、最適ポリシーはベイズ後部であり、正則化温度がデータセットサイズに逆比例して設定されたときの正確な後部を復元する。このポリシーはSymFormerとして実装されている。SymFormerは文法に制約のある自己回帰変換器で、ツリー相対的な自己アテンションを持ち、各生成ステップで有効な回路を保証する。オプションレベルのREINFORCEを導入し、すべてのトークンよりも構造決定の勾配更新を制限し、SNRの改善とNLTCSデータセットの10倍のサンプル効率向上を実現した。 PC出力の多線形多項式構造に3層不確かさ分解(構造平均化、デルタ法によるパラメトリック、共役ディリクレ-カテゴリー伝播)を基礎とする。 NLTCSでは、SymCircuitはLearningSPNのギャップの93%を閉じている。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Modes of Sequence Models and Learning Coefficients [0.6906005491572401]
変換器ネットワークにおける損失ランドスケープの計測可能な特性とデータ中のパターンをリンクするシーケンスモデリングの幾何学的記述を開発する。局所学習係数の推定値がデータ依存しきい値以下のモードに無関心であることを理論的に示す。この洞察は、ネットワークパラメータが人口減少の厳格な最小限ではない場合でも、なぜ信頼できるLLC推定値が得られるのかを明らかにする。
論文参考訳（メタデータ） (2025-04-25T03:38:10Z)
Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるために,新しい記号回帰手法を提案する。我々の研究は、データ固有の式生成器の学習に焦点を当てた、一般的なDSRフレームワークと一致しています。
論文参考訳（メタデータ） (2024-06-10T19:29:10Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文参考訳（メタデータ） (2023-11-10T15:33:19Z)
A Hybrid Framework for Sequential Data Prediction with End-to-End Optimization [0.0]
オンライン環境での非線形予測について検討し,手作業による特徴や手作業によるモデル選択の問題を効果的に緩和するハイブリッドモデルを提案する。逐次データからの適応的特徴抽出にはLSTM(Recurrent Neural Network)、効果的な教師付き回帰には勾配強化機構(soft GBDT)を用いる。本稿では, 合成データに対するアルゴリズムの学習挙動と, 各種実生活データセットに対する従来の手法による性能改善について述べる。
論文参考訳（メタデータ） (2022-03-25T17:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。