論文の概要: OS-R1: Agentic Operating System Kernel Tuning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.12551v1
- Date: Mon, 18 Aug 2025 01:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.8563
- Title: OS-R1: Agentic Operating System Kernel Tuning with Reinforcement Learning
- Title(参考訳): OS-R1:強化学習によるエージェントオペレーティングシステムカーネルチューニング
- Authors: Hongyu Lin, Yuchen Li, Haoran Luo, Kaichun Yao, Libo Zhang, Mingjie Xing, Yanjun Wu,
- Abstract要約: 本稿では,ルールベース強化学習(RL)を利用したエージェントLinuxカーネルチューニングフレームワークOS-R1を紹介する。
カーネル構成空間をRL環境として抽象化することにより、OS-R1は大規模言語モデル(LLM)による効率的な探索を促進し、正確な構成変更を保証する。
実験の結果、OS-R1は既存のベースライン法よりも大幅に優れ、チューニングやデータ効率の維持よりも最大5.6%の性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 32.81416809245337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linux kernel tuning is essential for optimizing operating system (OS) performance. However, existing methods often face challenges in terms of efficiency, scalability, and generalization. This paper introduces OS-R1, an agentic Linux kernel tuning framework powered by rule-based reinforcement learning (RL). By abstracting the kernel configuration space as an RL environment, OS-R1 facilitates efficient exploration by large language models (LLMs) and ensures accurate configuration modifications. Additionally, custom reward functions are designed to enhance reasoning standardization, configuration modification accuracy, and system performance awareness of the LLMs. Furthermore, we propose a two-phase training process that accelerates convergence and minimizes retraining across diverse tuning scenarios. Experimental results show that OS-R1 significantly outperforms existing baseline methods, achieving up to 5.6% performance improvement over heuristic tuning and maintaining high data efficiency. Notably, OS-R1 is adaptable across various real-world applications, demonstrating its potential for practical deployment in diverse environments. Our dataset and code are publicly available at https://github.com/LHY-24/OS-R1.
- Abstract(参考訳): Linuxカーネルチューニングはオペレーティングシステム(OS)のパフォーマンスの最適化に不可欠である。
しかし、既存の手法は効率性、スケーラビリティ、一般化の点でしばしば課題に直面している。
本稿では,ルールベース強化学習(RL)を利用したエージェントLinuxカーネルチューニングフレームワークOS-R1を紹介する。
カーネル構成空間をRL環境として抽象化することにより、OS-R1は大規模言語モデル(LLM)による効率的な探索を促進し、正確な構成変更を保証する。
さらに、カスタム報酬関数は、推論の標準化、構成変更の精度、LLMのシステム性能の意識を高めるように設計されている。
さらに,多種多様なチューニングシナリオにおける収束を加速し,再学習を最小化する2相学習プロセスを提案する。
実験の結果、OS-R1は既存のベースライン法よりも大幅に優れており、ヒューリスティックチューニングよりも最大5.6%の性能向上を実現し、高いデータ効率を維持することができた。
特に、OS-R1は様々な現実世界のアプリケーションに適用可能であり、多様な環境に実際にデプロイする可能性を示している。
データセットとコードはhttps://github.com/LHY-24/OS-R1.comで公開されています。
関連論文リスト
- LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning [4.105967217565736]
システム1やシステム2の要求によってデータとパラメータの両方を分割するデュアルシステムLoRAフレームワークを提案する。
具体的には、マルチモデルロールプレイングと投票によってタスクデータを分類し、重要スコアリングに基づいて分割パラメータを分割する。
実験の結果,2段階の微調整戦略であるSFTとRLは,SOTA PEFTベースラインの整合性や超越性を保ちながら,アクティブパラメータの使用率を低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-28T17:11:26Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。
近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。
より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文 参考訳(メタデータ) (2025-04-30T09:10:46Z) - SortingEnv: An Extendable RL-Environment for an Industrial Sorting Process [0.0]
本稿では,産業的な選別システムを最適化し,進化空間におけるエージェントの挙動を研究することを目的とした,新しい強化学習(RL)環境を提案する。
選別プロセス内で物質の流れをシミュレートする際、我々の環境は、ベルト速度や占有レベルといった操作パラメータを持つデジタルツインのアイデアに従います。
これには、離散ベルトの速度調整に焦点を当てた基本バージョンと、複数のソートモードを導入した先進バージョンと、強化された材料組成観察という2つのバリエーションが含まれる。
論文 参考訳(メタデータ) (2025-03-13T15:38:25Z) - BYOS: Knowledge-driven Large Language Models Bring Your Own Operating System More Excellent [32.81416809245337]
カーネルチューニングは、システムパフォーマンスを最適化するためにカーネル構成を体系的に調整する。
近年の大規模言語モデル(LLM)の進歩にもかかわらず、カーネルチューニングは依然として重要な課題である。
カーネルチューニングのためのLLMフレームワークを自動化したBYOSを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:50:16Z) - Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation [46.5310645609264]
本稿では,メタラーニングとマルコフ・チェイン・モンテカルロに基づくSISRアプローチを提案する。
軽量ネットワークがカーネルジェネレータとして採用され、ランダムガウス分布のMCMCシミュレーションから学習することで最適化される。
カーネルジェネレータと画像復元器を最適化するために,メタラーニングに基づく交互最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T07:50:15Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。