Fugu-MT 論文翻訳(概要): RL4ReAl: Reinforcement Learning for Register Allocation

論文の概要: RL4ReAl: Reinforcement Learning for Register Allocation

arxiv url: http://arxiv.org/abs/2204.02013v1
Date: Tue, 5 Apr 2022 06:30:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-06 15:00:39.539374
Title: RL4ReAl: Reinforcement Learning for Register Allocation
Title（参考訳）: RL4ReAl:レジスタ割り当てのための強化学習
Authors: S. VenkataKeerthy, Siddharth Jain, Rohit Aggarwal, Albert Cohen, Ramakrishna Upadrasta
Abstract要約: 本稿では,多エージェント階層型強化学習を活用したレジスタ配置問題に対する新しい解を提案する。与えられた命令セットアーキテクチャの問題を正確に定義する制約を定式化し、生成したコードが意味的正当性を保持することを保証する。また、トレーニングと推論のためのモジュール的で効率的なコンパイラインターフェースを提供するgRPCベースのフレームワークも開発しています。
参考スコア（独自算出の注目度）: 2.449909275410288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel solution for the Register Allocation problem, leveraging multi-agent hierarchical Reinforcement Learning. We formalize the constraints that precisely define the problem for a given instruction-set architecture, while ensuring that the generated code preserves semantic correctness. We also develop a gRPC based framework providing a modular and efficient compiler interface for training and inference. Experimental results match or outperform the LLVM register allocators, targeting Intel x86 and ARM AArch64.
Abstract（参考訳）: マルチエージェント階層強化学習を利用したレジスタ配置問題に対する新しい解を提案する。与えられた命令セットアーキテクチャの問題を正確に定義する制約を定式化し、生成したコードが意味的正当性を保持することを保証する。また、トレーニングと推論のためのモジュール的で効率的なコンパイラインターフェースを提供するgRPCベースのフレームワークも開発しています。実験結果は、intel x86とarm aarch64をターゲットにしたllvmレジスタアロケータに匹敵する。

関連論文リスト

Reinforcement Learning for LLM Reasoning Under Memory Constraints [0.02488650627593658]
本稿では,グループ相対政策最適化のメモリ効率向上版であるS-GRPOと,よりきめ細かいクレジットカード代入のためのトークンレベルのプレフィックスマッチング戦略であるT-SPMOを紹介する。限られたリソースにもかかわらず、Qwen2-1.5Bを微調整する場合、両方の手法はLoRAトレーニングを使用してSVAMPベンチマークの精度を46%から70%以上改善した。両タスクのモデル性能(ベースモデルと比較)は,LoRAファインチューニングによるGRPOベースラインでは改善されなかった。
論文参考訳（メタデータ） (2025-04-29T14:58:43Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文参考訳（メタデータ） (2024-06-29T17:16:04Z)
Towards Learning Abductive Reasoning using VSA Distributed Representations [56.31867341825068]
本稿では,文脈認識モデルを用いた帰納的ルール学習手法を提案する。 ARLCは、誘引的推論のための、新しくより広く適用可能な訓練目標を特徴としている。プログラムされた知識の上に実例から漸進的に学習することで,ARLCのポストプログラミングトレーニングに対する堅牢性を示す。
論文参考訳（メタデータ） (2024-06-27T12:05:55Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules [51.82044734879657]
我々は,自己修正の連鎖を通じてモジュール化されたコード生成を誘発する,新しい推論フレームワークであるCodeChainを提案する。 CodeChainは、生成したソリューションのモジュール性と正確性の両方を大幅に向上させ、APPSで35%、CodeContestsで76%の相対パス@1の改善を実現しています。
論文参考訳（メタデータ） (2023-10-13T10:17:48Z)
A Chain of AI-based Solutions for Resolving FQNs and Fixing Syntax Errors in Partial Code [20.5627916036]
APIドキュメント、テクニカルブログ、プログラミングQ&Aサイトには、プログラミングタスクで再利用できる多数の部分的なコードが含まれているが、多くの場合、未解決の名前と構文エラーのために、これらのコードはコンパイル不可能である。完全修飾名 (FQN) の解決とChatGPTのような巨大言語モデル (LLM) に基づく部分コードにおけるラストマイル構文エラーの修正のための部分コード再利用チェーン (PCR-Chain) を提案する。
論文参考訳（メタデータ） (2023-06-21T02:13:32Z)
On Practical Robust Reinforcement Learning: Practical Uncertainty Set and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文参考訳（メタデータ） (2023-05-11T08:52:09Z)
Reinforcement Learning for Branch-and-Bound Optimisation using Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。我々は現在最先端のRL分岐アルゴリズムを3～5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文参考訳（メタデータ） (2022-05-28T06:08:07Z)
Robust Reinforcement Learning as a Stackelberg Game via Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。 RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文参考訳（メタデータ） (2022-02-19T03:44:05Z)
Spatial Assembly: Generative Architecture With Reinforcement Learning, Self Play and Tree Search [1.2691047660244335]
空間集合体生成における強化学習の活用について検討する。設計者が設定した目的を最大化するアセンブリを生成するポリシーを学ぶために,強化学習と自己再生を用いたアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-19T11:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。