論文の概要: A Joint Learning Approach to Hardware Caching and Prefetching
- arxiv url: http://arxiv.org/abs/2510.10862v1
- Date: Mon, 13 Oct 2025 00:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.132655
- Title: A Joint Learning Approach to Hardware Caching and Prefetching
- Title(参考訳): ハードウェアキャッシングとプレフェッチのための共同学習手法
- Authors: Samuel Yuan, Divyanshu Saxena, Jiayi Chen, Nihal Sharma, Aditya Akella,
- Abstract要約: 孤立して訓練された政策は、いまだに同時に配置される際の準最適性能を達成する可能性がある。
本稿では,2つのポリシーで使用される特徴の共有表現開発に基づく共同学習手法を提案する。
本稿では,共同エンコーダをベースとした共有表現と,埋め込みの対照的な学習に基づく2つの手法を提案する。
- 参考スコア(独自算出の注目度): 9.328806672532416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several learned policies have been proposed to replace heuristics for scheduling, caching, and other system components in modern systems. By leveraging diverse features, learning from historical trends, and predicting future behaviors, such models promise to keep pace with ever-increasing workload dynamism and continuous hardware evolution. However, policies trained in isolation may still achieve suboptimal performance when placed together. In this paper, we inspect one such instance in the domain of hardware caching -- for the policies of cache replacement and prefetching. We argue that these two policies are bidirectionally interdependent and make the case for training the two jointly. We propose a joint learning approach based on developing shared representations for the features used by the two policies. We present two approaches to develop these shared representations, one based on a joint encoder and another based on contrastive learning of the embeddings, and demonstrate promising preliminary results for both of these. Finally, we lay down an agenda for future research in this direction.
- Abstract(参考訳): 現代のシステムにおけるスケジューリング、キャッシュ、その他のシステムコンポーネントのヒューリスティックを置き換えるために、いくつかの学習済みポリシーが提案されている。
多様な機能を活用し、過去の傾向から学び、将来の振る舞いを予測することで、このようなモデルは、継続的に増加するワークロードダイナミズムと継続的なハードウェア進化にペースを維持することを約束します。
しかし、単独で訓練されたポリシーは、同時に配置された場合、依然として最適以下のパフォーマンスを達成する可能性がある。
本稿では,キャッシュ置換とプリフェッチのポリシーについて,ハードウェアキャッシュの領域におけるそのような事例について検討する。
これら2つの方針は双方向の相互依存であり、共同で2つの政策を訓練するものであると論じる。
本稿では,2つのポリシーで使用される特徴の共有表現を開発することに基づく共同学習手法を提案する。
本稿では,これらの共有表現を開発するための2つのアプローチを提案する。ひとつはジョイントエンコーダに基づくもので,もうひとつは埋め込みの対照的な学習に基づくものである。
最後に、今後の研究の方向性について概説する。
関連論文リスト
- Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming [57.44900640134789]
StackelbergゲームとしてMILP問題解決のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。
具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。
共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-05T03:16:04Z) - Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。
このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。
本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文 参考訳(メタデータ) (2024-11-14T11:10:36Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Learning Generalizable Representations for Reinforcement Learning via
Adaptive Meta-learner of Behavioral Similarities [43.327357653393015]
本稿では,強化学習における行動類似性に関する表現学習のためのメタラーナーベースフレームワークを提案する。
提案するフレームワークが,いくつかのベンチマークで最先端のベースラインを上回っていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-12-26T11:11:23Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Implicit Two-Tower Policies [19.802628935424522]
本稿では,学習可能な潜在表現の注意スコアと入力状態の注意スコアに基づいて行動を選択するImplicit Two-Tower(ITT)ポリシーという,構造化された強化学習ポリシーの新たなクラスを提案する。
政策スタックにおける状態処理からのアクションを明示的に切り離すことで、我々は2つの主要な目標 – 実質的な計算ゲインとより良いパフォーマンス – を達成できる。
論文 参考訳(メタデータ) (2022-08-02T01:23:50Z) - DEAP Cache: Deep Eviction Admission and Prefetching for Cache [1.201626478128059]
機械学習を用いて3つのポリシーすべてを学習するエンド・ツー・エンドパイプラインを提案する。
我々は,大規模コーパスの事前学習の成功からインスピレーションを得て,タスクの専門的な埋め込みを学習する。
本手法は,機械学習を用いてキャッシュ戦略の3つのコンポーネントすべてを学習する"概念の保護"として提案する。
論文 参考訳(メタデータ) (2020-09-19T10:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。