論文の概要: Quantum-Inspired DRL Approach with LSTM and OU Noise for Cut Order Planning Optimization
- arxiv url: http://arxiv.org/abs/2508.16611v1
- Date: Wed, 13 Aug 2025 05:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.581692
- Title: Quantum-Inspired DRL Approach with LSTM and OU Noise for Cut Order Planning Optimization
- Title(参考訳): LSTMとOUノイズを用いた量子インスピレーションDRLによるカットオーダー計画最適化
- Authors: Yulison Herry Chrisnanto, Julian Evan Chrisnanto,
- Abstract要約: 裁量計画(COP)は繊維産業において重要な課題であり、繊維の利用と製造コストに直接影響を及ぼす。
本稿では,Long Short-Term Memory NetworkとOrnstein-Uhlenbeckノイズを統合した量子インスパイアされたDeep Reinforcement Learningフレームワークを提案する。
比較分析の結果,提案手法は従来手法と比較して最大13%のコスト削減を実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cut order planning (COP) is a critical challenge in the textile industry, directly impacting fabric utilization and production costs. Conventional methods based on static heuristics and catalog-based estimations often struggle to adapt to dynamic production environments, resulting in suboptimal solutions and increased waste. In response, we propose a novel Quantum-Inspired Deep Reinforcement Learning (QI-DRL) framework that integrates Long Short-Term Memory (LSTM) networks with Ornstein-Uhlenbeck noise. This hybrid approach is designed to explicitly address key research questions regarding the benefits of quantum-inspired probabilistic representations, the role of LSTM-based memory in capturing sequential dependencies, and the effectiveness of OU noise in facilitating smooth exploration and faster convergence. Extensive training over 1000 episodes demonstrates robust performance, with an average reward of 0.81 (-+0.03) and a steady decrease in prediction loss to 0.15 (-+0.02). A comparative analysis reveals that the proposed approach achieves fabric cost savings of up to 13% compared to conventional methods. Furthermore, statistical evaluations indicate low variability and stable convergence. Despite the fact that the simulation model makes several simplifying assumptions, these promising results underscore the potential of the scalable and adaptive framework to enhance manufacturing efficiency and pave the way for future innovations in COP optimization.
- Abstract(参考訳): 裁量計画(COP)は繊維産業において重要な課題であり、繊維利用と製造コストに直接影響を及ぼす。
静的ヒューリスティックとカタログに基づく推定に基づく従来の手法は、しばしば動的生産環境への適応に苦しむ。
そこで本研究では,Long Short-Term Memory (LSTM) ネットワークとOrnstein-Uhlenbeckノイズを統合した新しいQI-DRL(Quantum-Inspired Deep Reinforcement Learning)フレームワークを提案する。
このハイブリッドアプローチは、量子インスパイアされた確率表現の利点、シーケンシャル依存関係のキャプチャにおけるLSTMベースのメモリの役割、スムーズな探索と高速収束を促進するためのOUノイズの効果に関する重要な研究課題に、明確に対処するために設計されている。
1000回を超える大規模なトレーニングでは、平均報酬は0.81(-+0.03)、予測損失は0.15(-+0.02)に減少する。
比較分析の結果,提案手法は従来手法と比較して最大13%のコスト削減を実現していることがわかった。
さらに、統計的評価は、低い変動性と安定した収束を示す。
シミュレーションモデルがいくつかの仮定を単純化するという事実にもかかわらず、これらの有望な結果は、生産効率を向上し、COP最適化における将来のイノベーションの道を開く、スケーラブルで適応的なフレームワークの可能性を強調している。
関連論文リスト
- DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling [20.605487145370752]
推論時間スケーリングは、テスト時間計算の増大を通じて、大きな言語モデル(LLM)の性能向上に有効であることが証明されている。
しかし、実際的な応用は、外部検証への依存や、現実的な計算制約に対する最適化の欠如によってしばしば妨げられる。
我々はDynScalingを提案し、これらの制限を2つの主要なイノベーション、すなわち並列シーケンスサンプリング戦略と帯域幅に基づく動的予算配分フレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-06-19T05:40:54Z) - Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Offline Reinforcement Learning via Inverse Optimization [3.0586855806896054]
連続状態と行動空間のための新しいオフライン強化学習(ORL)アルゴリズムを提案する。
ORL問題でよく見られる分布変化を緩和するために、我々は頑健で非因果予測制御の専門家を用いる。
既存の文献と異なり、当社の堅牢なMPC専門家は、正確かつトラクタブルな凸修正を楽しみます。
論文 参考訳(メタデータ) (2025-02-27T12:11:44Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Pseudo-Bayesian Optimization [7.556071491014536]
ブラックボックス最適化の収束を保証するために最小限の要件を課す公理的枠組みについて検討する。
我々は、単純な局所回帰と、不確実性を定量化するために適切な「ランダム化事前」構造を用いることが、収束を保証するだけでなく、常に最先端のベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-15T07:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。