論文の概要: Reinforcement Learning for Laser Additive Manufacturing Scan-Order Optimisation: A Bilevel Proxy--FEA Diagnostic Framework for Reward and World-Model Diagnosis
- arxiv url: http://arxiv.org/abs/2605.25063v1
- Date: Sun, 24 May 2026 13:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.743076
- Title: Reinforcement Learning for Laser Additive Manufacturing Scan-Order Optimisation: A Bilevel Proxy--FEA Diagnostic Framework for Reward and World-Model Diagnosis
- Title(参考訳): レーザー添加型製造Scan-Order最適化のための強化学習:2レベルプロキシ-FEA診断フレームワークによる逆流診断と世界モデル診断
- Authors: Xian Wu, Haoran Li, Dongbin Zhao, Ruiyao Zhang, Yuanqi Chu, Bin Wang,
- Abstract要約: 強化学習はレーザー添加物製造におけるスキャン順序最適化に有望なアプローチを提供する。
完全有限要素解析は、ループ内密評価において計算的に禁じられている。
本稿では,報酬と世界モデル診断のための2レベルプロキシ-FEA診断フレームワークについて検討する。
- 参考スコア(独自算出の注目度): 21.97902184672397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning offers a promising approach for scan-order optimisation in laser additive manufacturing, where sequential scan decisions critically influence thermal accumulation, residual stress, distortion, and final part quality. A central challenge in applying RL to this domain lies in reward and world-model fidelity: full finite-element analysis is computationally prohibitive for dense in-the-loop evaluation, while cheap thermo-inspired proxy metrics, though efficient, may capture only partial aspects of the true thermo-mechanical objectives. This paper investigates a bilevel Proxy--FEA diagnostic framework for reward and world-model diagnosis in reinforcement-learning-guided scan-order optimisation. The lower level employs lightweight scan-path and thermo-inspired proxies for rapid candidate generation and preliminary policy-side screening, while the upper level utilises sparse Abaqus FEA simulations to provide simulation-based reference labels. The framework is examined on a simplified whole-track heating LDED32 stripe benchmark comprising ten representative scan strategies. Final-cooling residual Mises stress, U3 vertical distortion, and PEEQ plasticity metrics reveal an observed stress--distortion trade-off rather than a single monotonic quality objective. Within the evaluated set, the center_out strategy emerges as a robust compromise candidate, while raster_left_to_right and edge_in form opposing endpoints of the trade-off. Proxy--FEA alignment analysis shows that current cheap path-based metrics predominantly capture distortion-related (U3) behaviour and exhibit only weak correlation with the sparse FEA reference labels. These findings highlight that proxy-only reward designs risk misalignment in future RL training and underscore the value of sparse FEA reference signals for diagnostic-guided reward and world-model refinement prior to large-scale policy optimisation.
- Abstract(参考訳): 強化学習は、レーザー添加物製造において、連続的な走査決定が熱蓄積、残留応力、歪み、最終部分品質に重大な影響を及ぼす、スキャン順序最適化のための有望なアプローチを提供する。
完全な有限要素解析は密度の高いループ内評価には計算的に禁じられているが、安価な熱インスパイアされたプロキシメトリクスは効率的ではあるが、真の熱力学的目的の部分的な側面のみを捉えることができる。
本稿では、強化学習誘導スキャンオーダー最適化における報酬と世界モデル診断のための2レベルプロキシ-FEA診断フレームワークについて検討する。
低レベルは高速な候補生成と事前ポリシー側スクリーニングに軽量なスキャンパスとサーモインスパイアされたプロキシを使用し、上位レベルはスパースAbaqus FEAシミュレーションを利用してシミュレーションベースのリファレンスラベルを提供する。
本フレームワークは, 簡易な全線加熱LDED32ストライプベンチマークにおいて, 10種類の代表走査法を用いて検討した。
最終冷却残留ミセス応力, U3垂直歪み, PEEQ塑性測定値から, 単調な品質目標ではなく, 観測された応力-歪トレードオフが明らかとなった。
評価セット内では、 Center_out 戦略が堅牢な妥協候補として現れ、Raster_left_to_right と edge_in はトレードオフの反対エンドポイントを形成する。
Proxy--FEAアライメント分析は、現在の安価なパスベースのメトリクスが歪み関連(U3)の振る舞いを主に捉え、スパースFEA参照ラベルとの弱い相関しか示さないことを示している。
これらの知見は, プロキシのみの報酬設計が将来のRLトレーニングにおけるリスクアライメントを危険にさらすことを示し, 大規模政策最適化に先立って, 診断誘導報酬と世界モデル改善のためのスパースFAA基準信号の価値を強調した。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - DISA: Offline Importance Sampling for Distribution-Matching LLM-RL [56.9445657766829]
本稿では、このキャリブレーション問題をRLループの外に移動させるdisAを紹介する。
DISAは提案トラジェクトリをオフラインに描画し、重要サンプリングによってパーティション関数を推定し、結果として発生するパーティション関数の推定を凍結する。
6つの数学と3つのコードベンチマークにまたがる2つのオープンウェイトなバックボーンでは、DisdisAはオンラインに結合した分散マッチングベースラインフローにマッチするか、超えている。
論文 参考訳(メタデータ) (2026-05-17T07:14:44Z) - HIR-ALIGN: Enhancing Hyperspectral Image Restoration via Diffusion-Based Data Generation [50.46910397782266]
ハイパスペクトル画像(HSI)の復元は、ノイズ、ぼかし、分解能損失などの劣化に悩まされるため、信頼性の高い解析に不可欠である。
本稿では,HIR-ALIGNを提案する。HIR-ALIGNは,限られたトレーニング画像と,ターゲット分布と密に一致した合成データとを付加して,ハイパースペクトル画像の復元を促進するための,プラグアンドプレイのターゲット適応型拡張フレームワークである。
論文 参考訳(メタデータ) (2026-05-13T14:14:13Z) - Reward Under Attack: Analyzing the Robustness and Hackability of Process Reward Models [68.45272703833209]
現状のPRMは、逆最適化圧力下で体系的に利用可能であることを示す。
これらの脆弱性を定量化するために、敵の圧力を増大させる3段階の診断フレームワークを導入する。
我々は、PRM-BiasBenchと診断ツールキットをリリースし、デプロイ前にロバストネスの評価を可能にする。
論文 参考訳(メタデータ) (2026-02-20T23:38:03Z) - CS-GBA: A Critical Sample-based Gradient-guided Backdoor Attack for Offline Reinforcement Learning [7.5200963577855875]
オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、バックドア攻撃に対して本質的に脆弱である。
我々は,厳格な予算の下で高い盗難と破壊性を達成すべく,CS-GBA(Critical Sample-based Gradient-Guided Backdoor Attack)を提案する。
論文 参考訳(メタデータ) (2026-01-15T13:57:52Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。