論文の概要: Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines
- arxiv url: http://arxiv.org/abs/2604.17910v1
- Date: Mon, 20 Apr 2026 07:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.750658
- Title: Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines
- Title(参考訳): 工学シミュレーションパイプラインにおける逐次拘束修復のための物理インフォームドカソーサルMDP
- Authors: Chuhan Qiao,
- Abstract要約: 本稿では,制約依存が層状DAGを形成するCMDPのためのフレームワークであるPI-CMDPを紹介する。
工学シミュレーションパイプラインにおける制約修復におけるPI-CMDPのインスタンス化を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-policy learning in constrained MDPs with large binary state spaces faces a fundamental tension: causal identification of transition dynamics requires structural assumptions, while sample-efficient policy learning requires state-space compression. We introduce PI-CMDP, a framework for CMDPs whose constraint dependencies form a layered DAG under a Lifecycle Ordering Assumption (LOA). We propose an Identify-Compress-Estimate pipeline: (i) Identify: LOA enables backdoor identification of causal edge weights for cross-layer pairs, with formal partial-identification bounds when LOA is violated; (ii) Compress: a Markov abstraction compresses state cardinality from 2^(WL) to (W+1)^L under layer-priority regularity and exchangeability; and (iii) Estimate: a physics-guided doubly-robust estimator remains unbiased and reduces the variance constant when the physics prior outperforms a learned model. We instantiate PI-CMDP on constraint repair in engineering simulation pipelines. On the TPS benchmark (4,206 episodes), PI-CMDP achieves 76.2% repair success rate with only 300 training episodes versus 70.8% for the strongest baseline (+5.4 pp), narrowing to +2.8 pp (83.4% vs. 80.6%) in the full-data regime, while substantially reducing cascade failure rates. All improvements are consistent across 5 independent seeds (paired t-test p < 0.02).
- Abstract(参考訳): 遷移力学の因果的同定には構造的仮定が必要であるが、サンプル効率の良い政策学習には状態空間の圧縮が必要である。
PI-CMDP(PI-CMDP)は,LCA(Lifecycle Ordering Assumption)の下で,制約依存が層状DAGを形成するCMDPのためのフレームワークである。
Identify-Compress-Estimate Pipelineを提案する。
一 LOAは、LOAに違反したときの正式な部分的識別境界を有するクロスレイヤー対の因果エッジ重量のバックドア識別を可能にする。
(ii)圧縮:マルコフ抽象は2^(WL)から(W+1)^Lまでの状態濃度を層優先規則性と交換性の下で圧縮する。
三 物理誘導二重燃焼推定器は、物理が学習モデルを上回る場合、偏差定数を減少させる。
工学シミュレーションパイプラインにおける制約修復におけるPI-CMDPのインスタンス化を行う。
TPSベンチマーク(4,206話)では、PI-CMDPは300回のトレーニングで76.2%の修復成功率を達成し、最強のベースライン(+5.4pp)では70.8%、フルデータ体制では+2.8pp(83.4%対80.6%)まで絞り込んだ。
すべての改良は5つの独立した種子(p < 0.02)で一致している。
関連論文リスト
- RPMS: Enhancing LLM-Based Embodied Planning through Rule-Augmented Memory Synergy [34.723296971298424]
LLMエージェントは、厳密な前提条件を満たす必要があるため、クローズドワールドの実施環境で失敗することが多い。
P1) 無効な動作生成と(P2) 状態ドリフトの2つの構造的結合型障害モードを同定する。
本稿では、構造化ルール検索によるアクション実現性を強制する、コンフリクト管理アーキテクチャRPMSを提案する。
論文 参考訳(メタデータ) (2026-03-18T15:26:00Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments [31.754045125599305]
特定の体制における高原は、損失のサンプルベースの推定が、訓練の過程で真の目的のために不十分なプロキシとなるために生じる。
このタイプの学習の停滞に対処する方法には,ステップサイズを縮小するか,更新間で収集されたサンプル数を増やすかの2つがある。
我々は、PPOを100万以上の並列環境に拡張することにより、複雑なオープン化された領域における事前ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-03-06T08:07:08Z) - SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Environment-Aware Indoor LoRaWAN Path Loss: Parametric Regression Comparisons, Shadow Fading, and Calibrated Fade Margins [3.776919981139063]
内部のLoRaWAN伝播は、構造的および時間的変化の文脈因子によって形成される。
リークセーフなクロスバリデーションを用いて評価した,環境に配慮した統計的に規律のある経路損失フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:14:48Z) - Constrained Edge AI Deployment: Fine-Tuning vs Distillation for LLM Compression [1.85373927927491]
現代のモデルは、エッジデプロイメントの厳密な計算、メモリ、接続制約を満たすために、構造化プルーニングと再トレーニングの組み合わせによって圧縮されることが多い。
我々の焦点は最大圧縮を達成することではなく、再学習損失関数の影響を分離することである。
エッジネットワークに典型的な断続的あるいは否定的な接続シナリオに適したコモンセンスQAのOLMo2-7B-SFTモデル上で両方のパイプラインを評価する。
論文 参考訳(メタデータ) (2025-05-13T19:06:32Z) - Semi-Supervised Coupled Thin-Plate Spline Model for Rotation Correction and Beyond [84.56978780892783]
制御点が限られている複数のTPSを、より柔軟で強力な変換に繰り返し結合するCoupledTPSを提案する。
注記コストを考慮に入れた半教師付き学習手法を開発し、ラベルのないデータを活用することにより、ワープ品質を向上させる。
実験は、回転補正のための既存の最先端解よりもCoupledTPSの優位性と普遍性を示す。
論文 参考訳(メタデータ) (2024-01-24T13:03:28Z) - Quantized Distributed Training of Large Models with Convergence
Guarantees [34.054462975511996]
FSDPの変種であるQSDPを理論的保証とともに量子的および重み勾配化をサポートする。
QSDPはFSDPの通信を完全に削除し,最大2.2倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-05T14:20:55Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。