論文の概要: OS-R1: Agentic Operating System Kernel Tuning with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.12551v1
- Date: Mon, 18 Aug 2025 01:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.8563
- Title: OS-R1: Agentic Operating System Kernel Tuning with Reinforcement Learning
- Title(参考訳): OS-R1:強化学習によるエージェントオペレーティングシステムカーネルチューニング
- Authors: Hongyu Lin, Yuchen Li, Haoran Luo, Kaichun Yao, Libo Zhang, Mingjie Xing, Yanjun Wu,
- Abstract要約: 本稿では,ルールベース強化学習(RL)を利用したエージェントLinuxカーネルチューニングフレームワークOS-R1を紹介する。
カーネル構成空間をRL環境として抽象化することにより、OS-R1は大規模言語モデル(LLM)による効率的な探索を促進し、正確な構成変更を保証する。
実験の結果、OS-R1は既存のベースライン法よりも大幅に優れ、チューニングやデータ効率の維持よりも最大5.6%の性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 32.81416809245337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linux kernel tuning is essential for optimizing operating system (OS) performance. However, existing methods often face challenges in terms of efficiency, scalability, and generalization. This paper introduces OS-R1, an agentic Linux kernel tuning framework powered by rule-based reinforcement learning (RL). By abstracting the kernel configuration space as an RL environment, OS-R1 facilitates efficient exploration by large language models (LLMs) and ensures accurate configuration modifications. Additionally, custom reward functions are designed to enhance reasoning standardization, configuration modification accuracy, and system performance awareness of the LLMs. Furthermore, we propose a two-phase training process that accelerates convergence and minimizes retraining across diverse tuning scenarios. Experimental results show that OS-R1 significantly outperforms existing baseline methods, achieving up to 5.6% performance improvement over heuristic tuning and maintaining high data efficiency. Notably, OS-R1 is adaptable across various real-world applications, demonstrating its potential for practical deployment in diverse environments. Our dataset and code are publicly available at https://github.com/LHY-24/OS-R1.
- Abstract(参考訳): Linuxカーネルチューニングはオペレーティングシステム(OS)のパフォーマンスの最適化に不可欠である。
しかし、既存の手法は効率性、スケーラビリティ、一般化の点でしばしば課題に直面している。
本稿では,ルールベース強化学習(RL)を利用したエージェントLinuxカーネルチューニングフレームワークOS-R1を紹介する。
カーネル構成空間をRL環境として抽象化することにより、OS-R1は大規模言語モデル(LLM)による効率的な探索を促進し、正確な構成変更を保証する。
さらに、カスタム報酬関数は、推論の標準化、構成変更の精度、LLMのシステム性能の意識を高めるように設計されている。
さらに,多種多様なチューニングシナリオにおける収束を加速し,再学習を最小化する2相学習プロセスを提案する。
実験の結果、OS-R1は既存のベースライン法よりも大幅に優れており、ヒューリスティックチューニングよりも最大5.6%の性能向上を実現し、高いデータ効率を維持することができた。
特に、OS-R1は様々な現実世界のアプリケーションに適用可能であり、多様な環境に実際にデプロイする可能性を示している。
データセットとコードはhttps://github.com/LHY-24/OS-R1.comで公開されています。
関連論文リスト
- Real-Time Lane Detection via Efficient Feature Alignment and Covariance Optimization for Low-Power Embedded Systems [22.603468261037975]
組込みシステムにおけるリアルタイム車線検出は、RGB画像の微妙でスパースな視覚信号のため、重大な課題に直面している。
本稿では,効率的なリアルタイムアプリケーションに特化して設計された,革新的な共分散分散最適化(CDO)モジュールを提案する。
CDOモジュールは、車線特徴分布を地上構造ラベルと密接に一致させ、計算複雑性を増大させることなく検出精度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-05T00:06:06Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning [4.105967217565736]
システム1やシステム2の要求によってデータとパラメータの両方を分割するデュアルシステムLoRAフレームワークを提案する。
具体的には、マルチモデルロールプレイングと投票によってタスクデータを分類し、重要スコアリングに基づいて分割パラメータを分割する。
実験の結果,2段階の微調整戦略であるSFTとRLは,SOTA PEFTベースラインの整合性や超越性を保ちながら,アクティブパラメータの使用率を低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-28T17:11:26Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - KARE-RAG: Knowledge-Aware Refinement and Enhancement for RAG [63.82127103851471]
Retrieval-Augmented Generation (RAG)は、大規模言語モデルがより広範な知識ソースにアクセスすることを可能にする。
ノイズの多いコンテンツを処理するために生成モデルの能力を向上させることは、ロバストなパフォーマンスに等しく重要であることを実証する。
本稿では,3つの重要なイノベーションを通じて知識利用を改善するKARE-RAGを提案する。
論文 参考訳(メタデータ) (2025-06-03T06:31:17Z) - Effective Inference-Free Retrieval for Learned Sparse Representations [19.54810957623511]
Learned Sparse Retrieval (LSR)は、学習された単語の袋にテキストをエンコードするために訓練済みの言語モデルを利用する効果的なIRアプローチである。
近年,新たな効率的な逆インデックスベース検索エンジンが提案されており,LSRモデルのトレーニングにおいて正規化の役割が変化したのか,という自然な疑問が投げかけられている。
より効率的なLSRエンコーダを生成するために、正規化を緩和できることが示される。
論文 参考訳(メタデータ) (2025-04-30T09:10:46Z) - Optuna vs Code Llama: Are LLMs a New Paradigm for Hyperparameter Tuning? [45.58422897857411]
この研究は、LoRAを用いてパラメータ効率の良いCode Llamaを微調整することで、ハイパーパラメータ最適化のための大規模言語モデル(LLM)の使用について検討する。
提案手法は,計算オーバーヘッドを大幅に削減しつつ,競合的あるいは優れたRoot Mean Square Error(RMSE)を実現する。
その結果,LLMに基づく最適化によって,木構造型パーゼンエミュレータ (TPE) のようなベイズ的手法が確立されただけでなく,知覚品質と低レイテンシ処理を必要とする実世界のアプリケーションへのチューニングが高速化された。
論文 参考訳(メタデータ) (2025-04-08T13:15:47Z) - SortingEnv: An Extendable RL-Environment for an Industrial Sorting Process [0.0]
本稿では,産業的な選別システムを最適化し,進化空間におけるエージェントの挙動を研究することを目的とした,新しい強化学習(RL)環境を提案する。
選別プロセス内で物質の流れをシミュレートする際、我々の環境は、ベルト速度や占有レベルといった操作パラメータを持つデジタルツインのアイデアに従います。
これには、離散ベルトの速度調整に焦点を当てた基本バージョンと、複数のソートモードを導入した先進バージョンと、強化された材料組成観察という2つのバリエーションが含まれる。
論文 参考訳(メタデータ) (2025-03-13T15:38:25Z) - BYOS: Knowledge-driven Large Language Models Bring Your Own Operating System More Excellent [32.81416809245337]
カーネルチューニングは、システムパフォーマンスを最適化するためにカーネル構成を体系的に調整する。
近年の大規模言語モデル(LLM)の進歩にもかかわらず、カーネルチューニングは依然として重要な課題である。
カーネルチューニングのためのLLMフレームワークを自動化したBYOSを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:50:16Z) - Blind Super-Resolution via Meta-learning and Markov Chain Monte Carlo Simulation [46.5310645609264]
本稿では,メタラーニングとマルコフ・チェイン・モンテカルロに基づくSISRアプローチを提案する。
軽量ネットワークがカーネルジェネレータとして採用され、ランダムガウス分布のMCMCシミュレーションから学習することで最適化される。
カーネルジェネレータと画像復元器を最適化するために,メタラーニングに基づく交互最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T07:50:15Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - Integrate Lattice-Free MMI into End-to-End Speech Recognition [87.01137882072322]
音声認識(ASR)研究において、識別基準はDNN-HMMシステムにおいて優れた性能を達成している。
このモチベーションにより、差別的基準の採用は、エンドツーエンド(E2E)のASRシステムの性能を高めることを約束している。
これまでの研究は、最小ベイズリスク(MBR、差別基準の一つ)をE2E ASRシステムに導入してきた。
本研究では,他の広く使われている識別基準であるLF-MMIをE2Eに統合する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-29T14:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。