論文の概要: Self-Evolving Recommendation System: End-To-End Autonomous Model Optimization With LLM Agents
- arxiv url: http://arxiv.org/abs/2602.10226v1
- Date: Tue, 10 Feb 2026 19:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.244947
- Title: Self-Evolving Recommendation System: End-To-End Autonomous Model Optimization With LLM Agents
- Title(参考訳): 自己進化型レコメンデーションシステム:LLMエージェントを用いたエンドツーエンドの自律モデル最適化
- Authors: Haochen Wang, Yi Wu, Daryl Chang, Li Wei, Lukasz Heldt,
- Abstract要約: 複雑なモデル変更を自律的に生成し、訓練し、デプロイする自己進化システムを提案する。
私たちのエージェントは、機械学習エンジニア(MLE)として機能します。
このアプローチの有効性は、YouTubeで成功したいくつかのプロダクションローンチを通じて実証されている。
- 参考スコア(独自算出の注目度): 18.707716142982992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing large-scale machine learning systems, such as recommendation models for global video platforms, requires navigating a massive hyperparameter search space and, more critically, designing sophisticated optimizers, architectures, and reward functions to capture nuanced user behaviors. Achieving substantial improvements in these areas is a non-trivial task, traditionally relying on extensive manual iterations to test new hypotheses. We propose a self-evolving system that leverages Large Language Models (LLMs), specifically those from Google's Gemini family, to autonomously generate, train, and deploy high-performing, complex model changes within an end-to-end automated workflow. The self-evolving system is comprised of an Offline Agent (Inner Loop) that performs high-throughput hypothesis generation using proxy metrics, and an Online Agent (Outer Loop) that validates candidates against delayed north star business metrics in live production. Our agents act as specialized Machine Learning Engineers (MLEs): they exhibit deep reasoning capabilities, discovering novel improvements in optimization algorithms and model architecture, and formulating innovative reward functions that target long-term user engagement. The effectiveness of this approach is demonstrated through several successful production launches at YouTube, confirming that autonomous, LLM-driven evolution can surpass traditional engineering workflows in both development velocity and model performance.
- Abstract(参考訳): グローバルビデオプラットフォームのレコメンデーションモデルのような大規模機械学習システムの最適化には、巨大なハイパーパラメータ検索スペースをナビゲートする必要がある。
これらの領域で実質的な改善を実現することは、従来は、新しい仮説をテストするために広範囲な手動のイテレーションに頼っていた、簡単な作業である。
本稿では,大規模言語モデル(LLM)を活用する自己進化システムを提案する。特にGoogleのGeminiファミリーのもので,エンドツーエンドの自動化ワークフロー内で,ハイパフォーマンスで複雑なモデル変更を自律的に生成,トレーニング,デプロイする。
自己進化システムは、プロキシメトリクスを使用した高スループット仮説生成を行うオフラインエージェント(インナーループ)と、ライブプロダクションにおける遅延ノーススタービジネスメトリクスに対する候補を検証するオンラインエージェント(アウトザーループ)から構成される。
エージェントは、機械学習エンジニア(MLE)として機能し、深い推論能力を示し、最適化アルゴリズムとモデルアーキテクチャの新たな改善を発見し、長期的なユーザエンゲージメントをターゲットにした革新的な報酬関数を定式化します。
このアプローチの有効性は、YouTubeで成功したいくつかのプロダクションローンチを通じて実証されており、自律的なLLM駆動の進化が、開発速度とモデルパフォーマンスの両方において、従来のエンジニアリングワークフローを上回る可能性があることを確認している。
関連論文リスト
- EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。
しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。
実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文 参考訳(メタデータ) (2026-01-29T11:33:49Z) - Automating Data-Driven Modeling and Analysis for Engineering Applications using Large Language Model Agents [3.344730946122235]
本稿では,Large Language Model (LLM) エージェントを用いてデータ駆動モデリングと分析を自動化する革新的なパイプラインを提案する。
協調エージェントを特徴とするマルチエージェントシステムと、Reasoning and Acting(ReAct)パラダイムに基づく単一エージェントシステムである。
論文 参考訳(メタデータ) (2025-10-01T19:28:35Z) - SEA: Self-Evolution Agent with Step-wise Reward for Computer Use [6.056153018209402]
本稿では,コンピュータ利用のための自己進化エージェント(SEA)を提案し,このエージェントを開発するために,データ生成,強化学習,モデル拡張における創造的手法を提案する。
提案したデータ生成,トレーニング戦略,強化の革新に基づいて,7Bパラメータのみを用いたコンピュータ利用のための自己進化エージェント(SEA)が提供される。
論文 参考訳(メタデータ) (2025-08-06T02:57:22Z) - CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。
本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。
本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-18T07:48:47Z) - WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model [55.276852838877346]
自己進化型エージェントは、独自のポリシーに基づいて、自律的にサンプリングされた軌道上で訓練される。
我々は,共進化型世界モデルLLMを導入する新しいフレームワークを提案する。
この世界モデルは、Web環境における現在の観察と行動に基づいて、次の観測を予測します。
論文 参考訳(メタデータ) (2025-04-23T02:54:31Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - Improving Retrospective Language Agents via Joint Policy Gradient Optimization [57.35348425288859]
RetroActは、言語エージェントのタスク計画と自己反射進化機能を共同で最適化するフレームワークである。
模倣学習と強化学習を統合した2段階共同最適化プロセスを開発した。
RetroActはタスクのパフォーマンスと意思決定プロセスを大幅に改善しています。
論文 参考訳(メタデータ) (2025-03-03T12:54:54Z) - ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling [15.67321902882617]
本稿では,オープンソースのLLMをトレーニングし,モデリングやソルバコードの開発を最適化する実行可能なパスを提案する。
この研究は、実用的なOR問題の解決においてLLMを評価するための最初の産業ベンチマークであるIndustrialORも導入した。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。