論文の概要: How Can Reinforcement Learning Achieve Expert-level Placement?
- arxiv url: http://arxiv.org/abs/2604.25191v1
- Date: Tue, 28 Apr 2026 03:55:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.704062
- Title: How Can Reinforcement Learning Achieve Expert-level Placement?
- Title(参考訳): 専門家レベルの配置を実現するための強化学習の方法
- Authors: Ruo-Tong Chen, Ke Xue, Chengrui Gao, Yunqi Shi, Tian Xu, Peng Xie, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou,
- Abstract要約: 我々は、報酬設計を専門家とのパフォーマンスギャップの主な原因とみなす。
複雑なプロセスを形式化する代わりに、専門家のレイアウトから直接学び、報酬モデルを引き出すことでこれを回避します。
私たちのフレームワークは、単一の設計からでも効率的に学習し、目に見えないケースにうまく一般化できます。
- 参考スコア(独自算出の注目度): 71.07457732447502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chip placement is a critical step in physical design. While reinforcement learning (RL)-based methods have recently emerged, their training primarily focuses on wirelength optimization, and therefore often fail to achieve expert-quality layouts. We identify the reward design as the primary cause for the performance gap with experts, and instead of formalizing intricate processes, we circumvent this by directly learning from expert layouts to derive a reward model. Our approach starts from the final expert layouts to infer step-by-step expert trajectories. Using these trajectories as demonstrations or preferences, we train a model that captures the latent implicit rewards in expert results. Experiments show that our framework can efficiently learn from even a single design and generalize well to unseen cases.
- Abstract(参考訳): チップ配置は物理デザインにおける重要なステップである。
強化学習(RL)に基づく手法が最近登場したが、そのトレーニングは主にワイヤ長の最適化に重点を置いており、そのため、しばしば専門家の質の高いレイアウトを達成できない。
我々は、報酬設計を専門家とのパフォーマンスギャップの原因とみなし、複雑なプロセスを形式化する代わりに、専門家のレイアウトから直接学習して報酬モデルを導出することでこれを回避します。
私たちのアプローチは、段階的に専門家の軌道を推測するために、最終的な専門家のレイアウトから始まります。
これらの軌跡を実演や嗜好として使用することで、専門家の成果に潜む暗黙の報酬をキャプチャするモデルをトレーニングします。
実験により、我々のフレームワークは単一の設計から効率的に学習し、目に見えないケースに対してうまく一般化できることが示されている。
関連論文リスト
- Expert Divergence Learning for MoE-based Language Models [21.857507958048696]
本稿では,専門家間の機能的専門化を明確に促進する,新しい事前学習戦略であるExpert Divergence Learningを紹介する。
本手法は,事前学習コーパスに固有のドメインラベルを活用するラベル駆動補助損失を組み込む。
我々は,最大150億パラメータのMoEモデルをスクラッチから事前学習することで,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2026-02-10T06:58:38Z) - Advancing Expert Specialization for Better MoE [22.88847592702946]
Mixture-of-Experts (MoE)モデルは、入力毎に専門家のサブセットだけを活性化することにより、大きな言語モデル(LLM)の効率的なスケーリングを可能にする。
一般的に使用される補助負荷分散損失は、しばしば専門家の重複と過度に均一なルーティングをもたらす。
本稿では,2つの相補的目的を取り入れた,シンプルで効果的な解を提案する。
論文 参考訳(メタデータ) (2025-05-28T13:09:47Z) - Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Causal Imitation Learning with Unobserved Confounders [82.22545916247269]
本研究では,学習者と専門家の感覚入力が異なる場合の模倣学習について検討する。
我々は、専門家の軌跡の量的知識を活用することで、模倣が依然として実現可能であることを示した。
論文 参考訳(メタデータ) (2022-08-12T13:29:53Z) - Programmatic Reward Design by Example [7.188571996124112]
不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。
本稿では,強化学習環境における報酬関数の特定にプログラムを用いることで,テキストプログラミングによる報酬設計を提案する。
本論文の主な貢献は,有能なデモンストレーションから最適なプログラム報酬関数を推定できる確率的フレームワークである。
論文 参考訳(メタデータ) (2021-12-14T05:46:24Z) - Soft Expert Reward Learning for Vision-and-Language Navigation [94.86954695912125]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従うことで、目に見えない環境で特定の場所を見つける必要がある。
本稿では,VLNタスクの工学的設計と一般化問題を克服するために,ソフトエキスパート・リワード・ラーニング(SERL)モデルを導入する。
論文 参考訳(メタデータ) (2020-07-21T14:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。