論文の概要: RL4ReAl: Reinforcement Learning for Register Allocation
- arxiv url: http://arxiv.org/abs/2204.02013v1
- Date: Tue, 5 Apr 2022 06:30:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:00:39.539374
- Title: RL4ReAl: Reinforcement Learning for Register Allocation
- Title(参考訳): RL4ReAl:レジスタ割り当てのための強化学習
- Authors: S. VenkataKeerthy, Siddharth Jain, Rohit Aggarwal, Albert Cohen,
Ramakrishna Upadrasta
- Abstract要約: 本稿では,多エージェント階層型強化学習を活用したレジスタ配置問題に対する新しい解を提案する。
与えられた命令セットアーキテクチャの問題を正確に定義する制約を定式化し、生成したコードが意味的正当性を保持することを保証する。
また、トレーニングと推論のためのモジュール的で効率的なコンパイラインターフェースを提供するgRPCベースのフレームワークも開発しています。
- 参考スコア(独自算出の注目度): 2.449909275410288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel solution for the Register Allocation problem, leveraging
multi-agent hierarchical Reinforcement Learning. We formalize the constraints
that precisely define the problem for a given instruction-set architecture,
while ensuring that the generated code preserves semantic correctness. We also
develop a gRPC based framework providing a modular and efficient compiler
interface for training and inference. Experimental results match or outperform
the LLVM register allocators, targeting Intel x86 and ARM AArch64.
- Abstract(参考訳): マルチエージェント階層強化学習を利用したレジスタ配置問題に対する新しい解を提案する。
与えられた命令セットアーキテクチャの問題を正確に定義する制約を定式化し、生成したコードが意味的正当性を保持することを保証する。
また、トレーニングと推論のためのモジュール的で効率的なコンパイラインターフェースを提供するgRPCベースのフレームワークも開発しています。
実験結果は、intel x86とarm aarch64をターゲットにしたllvmレジスタアロケータに匹敵する。
関連論文リスト
- REAR: A Relevance-Aware Retrieval-Augmented Framework for Open-Domain
Question Answering [122.62012375722124]
既存の手法では,大規模言語モデル (LLM) は検索した文書の関連性を正確に評価することはできない。
Relevance-Aware Retrieval-augmented approach for open- domain question answering (QA)を提案する。
論文 参考訳(メタデータ) (2024-02-27T13:22:51Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。
CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文 参考訳(メタデータ) (2023-10-13T10:17:48Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - RL4CO: a Unified Reinforcement Learning for Combinatorial Optimization
Library [32.67950169615487]
RL4CO(Reinforcement Learning for Combinatorial Optimization)ライブラリを紹介する。
私たちは、モジュール化や構成管理など、最先端のソフトウェアとベストプラクティスを実装に採用しています。
ゼロショット性能,一般化,適応性の異なる評価スキームを用いたベースラインRLソルバのベンチマークを行った。
論文 参考訳(メタデータ) (2023-06-29T16:57:22Z) - A Chain of AI-based Solutions for Resolving FQNs and Fixing Syntax
Errors in Partial Code [20.5627916036]
APIドキュメント、テクニカルブログ、プログラミングQ&Aサイトには、プログラミングタスクで再利用できる多数の部分的なコードが含まれているが、多くの場合、未解決の名前と構文エラーのために、これらのコードはコンパイル不可能である。
完全修飾名 (FQN) の解決とChatGPTのような巨大言語モデル (LLM) に基づく部分コードにおけるラストマイル構文エラーの修正のための部分コード再利用チェーン (PCR-Chain) を提案する。
論文 参考訳(メタデータ) (2023-06-21T02:13:32Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Multi-Agent Reinforcement Learning for Microprocessor Design Space
Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。
この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。
評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-11-29T17:10:24Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Spatial Assembly: Generative Architecture With Reinforcement Learning,
Self Play and Tree Search [1.2691047660244335]
空間集合体生成における強化学習の活用について検討する。
設計者が設定した目的を最大化するアセンブリを生成するポリシーを学ぶために,強化学習と自己再生を用いたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-19T11:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。