論文の概要: Man-Made Heuristics Are Dead. Long Live Code Generators!
- arxiv url: http://arxiv.org/abs/2510.08803v1
- Date: Thu, 09 Oct 2025 20:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.785626
- Title: Man-Made Heuristics Are Dead. Long Live Code Generators!
- Title(参考訳): マン・メイド・ヒューリスティックは死んだ。長生きのコード・ジェネレータ!
- Authors: Rohit Dwivedula, Divyanshu Saxena, Aditya Akella, Swarat Chaudhuri, Daehyeok Kim,
- Abstract要約: 生成モデルの最近の進歩に支えられた新しい自動探索技術を用いて,政策設計を再考する。
我々は、Webキャッシングと混雑制御という、2つの長年続くシステムポリシーにポリシーを適用する。
- 参考スコア(独自算出の注目度): 20.79465051161111
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy design for various systems controllers has conventionally been a manual process, with domain experts carefully tailoring heuristics for the specific instance in which the policy will be deployed. In this paper, we re-imagine policy design via a novel automated search technique fueled by recent advances in generative models, specifically Large Language Model (LLM)-driven code generation. We outline the design and implementation of PolicySmith, a framework that applies LLMs to synthesize instance-optimal heuristics. We apply PolicySmith to two long-standing systems policies - web caching and congestion control, highlighting the opportunities unraveled by this LLM-driven heuristic search. For caching, PolicySmith discovers heuristics that outperform established baselines on standard open-source traces. For congestion control, we show that PolicySmith can generate safe policies that integrate directly into the Linux kernel.
- Abstract(参考訳): さまざまなシステムコントローラのためのポリシー設計は、従来は手動のプロセスであり、ドメインの専門家はポリシーがデプロイされる特定のインスタンスに対するヒューリスティックを慎重に調整してきた。
本稿では,ジェネレーティブモデル,特にLLM(Large Language Model)によるコード生成の最近の進歩に支えられた,新しい自動検索技術を用いて,ポリシー設計を再考する。
LLMをインスタンス最適ヒューリスティックスに応用するフレームワークであるPolicySmithの設計と実装について概説する。
このLLMによるヒューリスティック検索によって生ずる機会を浮き彫りにして、Webキャッシングと混雑制御という2つの長年のシステムポリシーに適用する。
PolicySmithはキャッシュのために、標準のオープンソーストレースで確立されたベースラインを上回るヒューリスティックスを発見する。
混雑制御では,Linuxカーネルに直接統合する安全なポリシを生成することができる。
関連論文リスト
- The AI Agent Code of Conduct: Automated Guardrail Policy-as-Prompt Synthesis [0.19336815376402716]
本稿では,非構造化設計文書の検証可能なリアルタイムガードレールへの翻訳を自動化する新しいフレームワークを提案する。
『Promptとしての政治』では、自然言語政策の解釈と実施にLarge Language Models(LLMs)を使用している。
さまざまなアプリケーションにまたがってアプローチを検証することで、スケーラブルで監査可能なパイプラインを実証しています。
論文 参考訳(メタデータ) (2025-09-28T17:36:52Z) - Discovering Interpretable Programmatic Policies via Multimodal LLM-assisted Evolutionary Search [21.02398143073197]
解釈可能性と高い性能は、特に安全クリティカルなタスクにおいて、制御ポリシーを設計する上で必須の目標である。
本研究は,MLES (Multimodal Large Language Model-Assisted Search) と呼ばれる,プログラム型ポリシー発見のための新しいアプローチを導入する。
MLESはマルチモーダルな大言語モデルをポリシージェネレータとして利用し、自動ポリシー最適化のための進化的メカニズムと組み合わせている。
論文 参考訳(メタデータ) (2025-08-07T14:24:03Z) - Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Fat-to-Thin Policy Optimization: Offline RL with Sparse Policies [5.5938591697033555]
スパース連続ポリシー(sparse continuous policy)は、ランダムにいくつかのアクションを選択するが、他のアクションの確率を厳密にゼロにする分布である。
本稿では,Fat-to-Thin Policy Optimization (FtTPO) という,この問題に対処する最初のオフラインポリシ最適化アルゴリズムを提案する。
FtTPOを、ヘビーテールとスパースポリシーの両方を含む一般的な$q$-Gaussianファミリーでインスタンス化する。
論文 参考訳(メタデータ) (2025-01-24T10:11:48Z) - Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion [41.52811286996212]
Make-An-Agentは、行動から政治への生成のための新しいポリシーパラメータジェネレータである。
所望の行動の1つの実演をプロンプトとして、エージェントに対して制御ポリシーを生成する方法を示す。
また,Make-An-Agentによって生成されたポリシーを,ロコモーションタスク上で現実世界のロボットに展開する。
論文 参考訳(メタデータ) (2024-07-15T17:59:57Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。