Fugu-MT 論文翻訳(概要): Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets

論文の概要: Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets

arxiv url: http://arxiv.org/abs/2505.11135v1
Date: Fri, 16 May 2025 11:32:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:14.790747
Title: Scalability of Reinforcement Learning Methods for Dispatching in Semiconductor Frontend Fabs: A Comparison of Open-Source Models with Real Industry Datasets
Title（参考訳）: 半導体フロントエンドファブリックの分散のための強化学習法のスケーラビリティ:オープンソースモデルと実業界データセットの比較
Authors: Patrick Stöckermann, Henning Südfeld, Alessandro Immordino, Thomas Altenmüller, Marc Wegmann, Martin Gebser, Konstantin Schekotihin, Georg Seidel, Chew Wye Chan, Fei Fei Zhang,
Abstract要約: 我々は,オープンソースのシミュレーションモデルと実業界データセットを比較し,最適化手法のスケーリング方法を評価する。提案した進化戦略に基づく手法は、同等の政策段階に基づく手法よりもはるかに優れていることを示す。進化戦略を用いて,2桁のタドネス向上と1桁のスループット向上を観察した。
参考スコア（独自算出の注目度）: 40.434003972007744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmark datasets are crucial for evaluating approaches to scheduling or dispatching in the semiconductor industry during the development and deployment phases. However, commonly used benchmark datasets like the Minifab or SMT2020 lack the complex details and constraints found in real-world scenarios. To mitigate this shortcoming, we compare open-source simulation models with a real industry dataset to evaluate how optimization methods scale with different levels of complexity. Specifically, we focus on Reinforcement Learning methods, performing optimization based on policy-gradient and Evolution Strategies. Our research provides insights into the effectiveness of these optimization methods and their applicability to realistic semiconductor frontend fab simulations. We show that our proposed Evolution Strategies-based method scales much better than a comparable policy-gradient-based approach. Moreover, we identify the selection and combination of relevant bottleneck tools to control by the agent as crucial for an efficient optimization. For the generalization across different loading scenarios and stochastic tool failure patterns, we achieve advantages when utilizing a diverse training dataset. While the overall approach is computationally expensive, it manages to scale well with the number of CPU cores used for training. For the real industry dataset, we achieve an improvement of up to 4% regarding tardiness and up to 1% regarding throughput. For the less complex open-source models Minifab and SMT2020, we observe double-digit percentage improvement in tardiness and single digit percentage improvement in throughput by use of Evolution Strategies.
Abstract（参考訳）: ベンチマークデータセットは、開発およびデプロイメントフェーズにおける半導体産業におけるスケジューリングやディスパッチのアプローチを評価するために不可欠である。しかし、MinifabやSMT2020のような一般的なベンチマークデータセットは、現実世界のシナリオで見られる複雑な詳細と制約を欠いている。この欠点を軽減するため、オープンソースのシミュレーションモデルと実業界データセットを比較し、最適化手法のスケール方法を評価する。具体的には、政策段階と進化戦略に基づいて最適化を行う強化学習手法に着目する。本研究は,これらの最適化手法の有効性と,現実的な半導体フロントエンドファブシミュレーションへの適用性について考察する。提案した進化戦略に基づく手法は、同等の政策段階に基づく手法よりもはるかに優れていることを示す。さらに,エージェントによって制御される関連ボトルネックツールの選択と組み合わせを,効率的な最適化に欠かせないものとみなす。さまざまなローディングシナリオと確率的ツール障害パターンをまたいだ一般化のために、さまざまなトレーニングデータセットを使用する場合のメリットを実現しています。全体的なアプローチは計算コストがかかるが、トレーニングに使用するCPUコアの数に応じて、うまくスケールすることができる。実業界データセットでは、障害に関する最大4%の改善とスループットに関する最大1%を実現しています。より複雑なオープンソースモデルであるMinifabとSMT2020に対して、進化戦略を用いて、重大性の2桁パーセンテージ改善とスループットの1桁パーセンテージ改善を観察する。

関連論文リスト

LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文参考訳（メタデータ） (2025-05-12T10:57:51Z)
DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文参考訳（メタデータ） (2025-03-18T14:02:59Z)
iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use [39.65877861652369]
大規模な言語モデルを外部ツールで拡張することは、その機能を強化するための有望なアプローチである。その結果, 合成データの増加に伴い, トレーニングは著しく低下することがわかった。我々は,この制限を緩和するために,反復的に強化された微調整戦略を提案する。
論文参考訳（メタデータ） (2025-01-15T04:52:34Z)
Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文参考訳（メタデータ） (2024-11-21T02:30:53Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
An Edge-Aware Graph Autoencoder Trained on Scale-Imbalanced Data for Traveling Salesman Problems [22.792870849003137]
本研究では、トラベリングセールスマン問題(TSP)を解決するためのデータ駆動グラフ表現学習法を提案する。残留ゲートエンコーダは遅延エッジ埋め込みを学習するために訓練され、次いでエッジ中心のデコーダでリンク予測をエンドツーエンドに出力する。実験結果から,提案したエッジ対応グラフオートエンコーダモデルにより,高い競合性能が得られた。
論文参考訳（メタデータ） (2023-10-10T11:42:49Z)
Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文参考訳（メタデータ） (2022-06-14T16:35:58Z)
Learning Distributionally Robust Models at Scale via Composite Optimization [45.47760229170775]
DROの異なる変種が、スケーラブルな方法を提供する有限サム合成最適化の単なる例であることを示す。また、非常に大規模なデータセットからロバストなモデルを学ぶために、先行技術に関して提案アルゴリズムの有効性を示す実験結果も提供する。
論文参考訳（メタデータ） (2022-03-17T20:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。