論文の概要: A PPA-Driven 3D-IC Partitioning Selection Framework with Surrogate Models
- arxiv url: http://arxiv.org/abs/2604.18806v1
- Date: Mon, 20 Apr 2026 20:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.475421
- Title: A PPA-Driven 3D-IC Partitioning Selection Framework with Surrogate Models
- Title(参考訳): サーロゲートモデルを用いたPPA駆動3次元IC分割選択フレームワーク
- Authors: Shang Wang, Shuai Liu, Owen Randall, Matthew E. Taylor,
- Abstract要約: 3D-ICネットリスト分割は、一般的にプロキシの目的によって最適化され、最終的なPPAはコスト評価として扱われる。
このプロキシ駆動のパラダイムは、追加のPPA評価をより優れたPPA結果に確実に翻訳することを困難にします。
プロキシと真のPPAメトリクスのギャップを埋めるアプローチであるDOPPを紹介します。
- 参考スコア(独自算出の注目度): 12.192181658514835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D-IC netlist partitioning is commonly optimized using proxy objectives, while final PPA is treated as a costly evaluation rather than an optimization signal. This proxy-driven paradigm makes it difficult to reliably translate additional PPA evaluations into better PPA outcomes. To bridge this gap, we present DOPP (D-Optimal PPA-driven partitioning selection), an approach that bridges the gap between proxies and true PPA metrics. Across eight 3D-IC designs, our framework improves PPA over Open3DBench (average relative improvements of 9.99% congestion, 7.87% routed wirelength, 7.75% WNS, 21.85% TNS, and 1.18% power). Compared with exhaustive evaluation over the full candidate set, DOPP achieves comparable best-found PPA while evaluating only a small fraction of candidates, substantially reducing evaluation cost. By parallelizing evaluations, our method delivers these gains while maintaining wall-clock runtime comparable to traditional baselines.
- Abstract(参考訳): 3D-ICネットリスト分割は、一般的にプロキシの目的によって最適化されるが、最終的なPPAは、最適化信号よりもコストの高い評価として扱われる。
このプロキシ駆動のパラダイムは、追加のPPA評価をより優れたPPA結果に確実に翻訳することを困難にします。
このギャップを埋めるために、プロキシと真のPPAメトリクスのギャップを埋めるアプローチであるDOPP(D-Optimal PPA-driven partitioning selection)を提案する。
8つの3D-IC設計において、我々のフレームワークはOpen3DBenchよりもPPAを改善する(平均的な9.99%の混雑、7.87%のルーティングワイヤ長、7.75%のWAS、21.85%のTNS、1.18%の電力)。
完全な候補集合に対する徹底的な評価と比較すると、DOPPは、少数の候補のみを評価しながら、同等の最良のPPAを実現し、評価コストを大幅に削減する。
評価を並列化することにより、従来のベースラインに匹敵するウォールタイムランタイムを維持しながら、これらのゲインを提供する。
関連論文リスト
- dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models [71.26391195427878]
拡散大言語モデル(dLLM)は、言語生成の新しいパラダイムを導入する。
本研究は,軌道確率計算のコストを削減し,dLLMのポリシー最適化を改善することを目的とする。
我々は、7B dLLMのdTRPOを命令追従と推論のベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-19T11:55:52Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [77.16976971950785]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOは絶対的なアドバンテージを低く保ち、勾配計算や更新に必要な数を大幅に削減する。
実験の結果、CPPOはGSM8Kで最大7.98タイム、Mathで3.48タイムで最大7.48タイム、オリジナルのGRPOと比較して精度を保っている。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。