Fugu-MT 論文翻訳(概要): Branch Prediction as a Reinforcement Learning Problem: Why, How and Case Studies

論文の概要: Branch Prediction as a Reinforcement Learning Problem: Why, How and Case Studies

arxiv url: http://arxiv.org/abs/2106.13429v1
Date: Fri, 25 Jun 2021 04:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-28 22:30:48.358047
Title: Branch Prediction as a Reinforcement Learning Problem: Why, How and Case Studies
Title（参考訳）: 強化学習問題としての分岐予測 : なぜ, 方法, 事例研究
Authors: Anastasios Zouzias, Kleovoulos Kalaitzidis and Boris Grot
Abstract要約: 本稿では,Reinforcement Learning(RL)の観点からBPを考察することにより,BP設計の体系的推論と探索を容易にすることを論じる。本稿では、分岐予測器にRLの定式化を適用し、この定式化で既存の予測器を簡潔に表現できることを示し、従来のBPの2つのRLに基づく変種について検討する。
参考スコア（独自算出の注目度）: 0.5335528687192602
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have seen stagnating improvements to branch predictor (BP) efficacy and a dearth of fresh ideas in branch predictor design, calling for fresh thinking in this area. This paper argues that looking at BP from the viewpoint of Reinforcement Learning (RL) facilitates systematic reasoning about, and exploration of, BP designs. We describe how to apply the RL formulation to branch predictors, show that existing predictors can be succinctly expressed in this formulation, and study two RL-based variants of conventional BPs.
Abstract（参考訳）: 近年、分岐予測器(BP)の有効性が停滞し、分岐予測器の設計における新しいアイデアが失われ、この分野における新しい思考が求められている。本稿では,Reinforcement Learning(RL)の観点からBPを考察することにより,BP設計の体系的推論と探索を容易にする。本稿では、分岐予測器にRLの定式化を適用し、この定式化で既存の予測器を簡潔に表現できることを示し、従来のBPの2つのRLに基づく変種について検討する。

関連論文リスト

Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-06-27T09:53:57Z)
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文参考訳（メタデータ） (2025-05-30T17:59:01Z)
Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning [55.36978389831446]
我々はベイズ適応RLフレームワークにおける反射探査を再放送する。我々のアルゴリズムであるBARLは、観測結果に基づいて戦略を縫い替えるようにLLMに指示する。
論文参考訳（メタデータ） (2025-05-26T22:51:00Z)
A Generative Framework for Causal Estimation via Importance-Weighted Diffusion Distillation [55.53426007439564]
観察データから個別化された治療効果を推定することは因果推論における中心的な課題である。逆確率重み付け(IPW)は、この問題に対するよく確立された解決策であるが、現代のディープラーニングフレームワークへの統合は依然として限られている。本稿では,拡散モデルの事前学習と重み付きスコア蒸留を組み合わせた新しい生成フレームワークであるIWDDを提案する。
論文参考訳（メタデータ） (2025-05-16T17:00:52Z)
Sign-Symmetry Learning Rules are Robust Fine-Tuners [0.10923877073891444]
バックプロパゲーションは長年、ニューラルネットワークをトレーニングするための主要な方法だった。サイン-シメトリ学習規則を用いたBP事前学習モデルを提案する。
論文参考訳（メタデータ） (2025-02-09T14:59:57Z)
A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。 DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文参考訳（メタデータ） (2024-10-21T02:27:24Z)
Advances in Preference-based Reinforcement Learning: A Review [1.474723404975345]
嗜好に基づく強化学習(PbRL)は、人間の嗜好を数値的な報酬ではなく専門家からのフィードバックとして利用する。我々はPbRLのスケーラビリティと効率を向上させる新しいアプローチを含む統一されたPbRLフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-21T18:57:12Z)
Towards Understanding the Robustness of Diffusion-Based Purification: A Stochastic Perspective [65.10019978876863]
拡散性浄化(DBP)は、敵の攻撃に対する効果的な防御機構として出現している。本稿では、DBPプロセスの本質が、その堅牢性の主要な要因であると主張している。
論文参考訳（メタデータ） (2024-04-22T16:10:38Z)
Predictive Churn with the Set of Good Models [61.00058053669447]
本稿では,予測的不整合という2つの無関係な概念の関連性について考察する。予測多重性(英: predictive multiplicity)は、個々のサンプルに対して矛盾する予測を生成するモデルである。 2つ目の概念である予測チャーン(英: predictive churn)は、モデル更新前後の個々の予測の違いを調べるものである。
論文参考訳（メタデータ） (2024-02-12T16:15:25Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
A Theoretical Framework for Inference and Learning in Predictive Coding Networks [41.58529335439799]
予測符号化(PC)は、計算神経科学において重要な理論である。予測構成で訓練されたPCNの特性に関する包括的理論的解析を行う。
論文参考訳（メタデータ） (2022-07-21T04:17:55Z)
Marginal and Joint Cross-Entropies & Predictives for Online Bayesian Inference, Active Learning, and Active Sampling [37.97228752843909]
最近の研究は、理論的・合成的な観点からの逐次的意思決定における共同予測の重要性を強調している。オンラインベイズ推論について論じるが、これは再トレーニングせずに追加データを考慮しながら予測を行うことができる。これらの設定は、限界予測と共同予測、それぞれのクロスエントロピー、およびオフラインおよびオンライン学習におけるそれらの場所の検証によって動機付けられている。
論文参考訳（メタデータ） (2022-05-18T07:24:49Z)
BADDr: Bayes-Adaptive Deep Dropout RL for POMDPs [22.78390558602203]
BRLの表現非依存な定式化を部分的に観測可能とし,従来のモデルを1つの理論的傘の下で統一する。また,新しい導出手法であるBayes-Adaptive Deep Dropout rl (BADDr)を提案する。
論文参考訳（メタデータ） (2022-02-17T19:48:35Z)
A Theoretical View of Linear Backpropagation and Its Convergence [55.69505060636719]
バックプロパゲーション(BP)はディープニューラルネットワーク(DNN)の勾配を計算するために広く用いられている最近では、NinBPと呼ばれるBPの線形変種が導入され、ブラックボックス攻撃を行うためのより伝達可能な逆の例が生み出された。本稿では,LinBPのニューラルネットワーク関連学習課題における理論的解析について述べる。
論文参考訳（メタデータ） (2021-12-21T07:18:00Z)
Principled Exploration via Optimistic Bootstrapping and Backward Induction [84.78836146128238]
最適ブートストラップ・バックワード誘導(OB2I)による深層強化学習(DRL)の原理的探索法を提案する。 OB2IはDRLの非パラメトリックブートストラップを介して汎用UCB結合を構築する。提案する UCB-bonus と LSVI-UCB の理論的接続を線形に構築する。
論文参考訳（メタデータ） (2021-05-13T01:15:44Z)
A Theoretical Framework for Target Propagation [75.52598682467817]
我々は、バックプロパゲーション(BP)の代替として人気があるが、まだ完全には理解されていないターゲット伝搬(TP)を解析する。提案理論は,TPがガウス・ニュートン最適化と密接に関係していることを示し,BPとは大きく異なる。我々は,フィードバックウェイトトレーニングを改善する新しいリコンストラクション損失を通じて,この問題に対する第1の解決策を提供する。
論文参考訳（メタデータ） (2020-06-25T12:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。