論文の概要: GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents
- arxiv url: http://arxiv.org/abs/2511.00802v1
- Date: Sun, 02 Nov 2025 04:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.940536
- Title: GrowthHacker: Automated Off-Policy Evaluation Optimization Using Code-Modifying LLM Agents
- Title(参考訳): GrowthHacker: コード修正LDMエージェントによるオフポリティ評価の自動最適化
- Authors: Jie JW Wu, Ayanda Patrick Herlihy, Ahmad Saleem Mirza, Ali Afoud, Fatemeh Fard,
- Abstract要約: textitGrowthHackerは、大規模な実世界のデータセットのエージェントおよびベースラインメソッドによるベンチマークである。
textittwo_agentフレームワークを開発し、最適化効率を保ちながらシステムの複雑さを低減する。
その結果、2_agentフレームワークは100%の信頼性と106.7%の平均的な改善を実現していることがわかった。
- 参考スコア(独自算出の注目度): 0.32839375042867835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the software industry shifting toward a data-driven culture, online A/B testing is a key tool for evaluating new technologies. However, deploying such experiments requires substantial resources, may negatively impact users, and involves long data collection periods. To address this, \textit{off-policy evaluation (OPE)}, or offline A/B testing, uses logged data to assess technologies and is fundamental in Reinforcement Learning, making it crucial in domains where online testing is costly or risky, such as healthcare, recommender systems, education, dialog systems, and robotics. Despite advances in coding LLMs and agentic AI, little is known about leveraging them to optimize OPE results. We investigate whether LLMs and LLM-based agents can improve OPE performance via code optimization. We propose \textit{GrowthHacker}, a benchmark with agent and baseline methods on large-scale real-world datasets, which iteratively optimizes code, evaluates results, and begins new optimization cycles. We collected datasets, established protocols, implemented baselines for OPE on the Open Bandit Pipeline (OBP)~\cite{saito2021openbanditdatasetpipeline} and Scope-RL~\cite{kiyohara2023scope}, and developed the \textit{two_agent} framework, which reduces system complexity while preserving optimization effectiveness. Results show the two_agent framework achieves 100% reliability and the highest average improvement of 106.7% among positive outcomes. Both two_agent and CrewAI reach 45% success rates, outperforming AutoGen's 34%. These findings demonstrate the feasibility of LLM-based agents as automated "growth hackers" to enhance OPE systems, with implications for scaling data-driven decision-making in production.
- Abstract(参考訳): ソフトウェア産業がデータ駆動型文化へとシフトする中で、オンラインA/Bテストは新しい技術を評価する上で重要なツールである。
しかし、そのような実験をデプロイするにはかなりのリソースが必要であり、ユーザに影響を与える可能性があり、長いデータ収集期間が伴う。
これを解決するために、オフラインのA/Bテストである‘textit{off-policy Evaluation(OPE)’は、ログデータを使用して技術を評価し、強化学習の基本であり、医療、レコメンダシステム、教育、ダイアログシステム、ロボット工学といったオンラインテストがコストがかかる、あるいはリスクの高い分野において重要である。
LLMとエージェントAIのコーディングの進歩にもかかわらず、OPE結果の最適化にそれらを活用することについてはほとんど知られていない。
我々は,LLM と LLM をベースとしたエージェントが,コード最適化により OPE の性能を向上できるかどうかを検討する。
本稿では,大規模実世界のデータセットに対するエージェントおよびベースラインメソッドを用いたベンチマークである‘textit{GrowthHacker} を提案し,コードを反復的に最適化し,結果を評価し,新たな最適化サイクルを開始する。
我々は、データセットを収集し、プロトコルを確立し、Open Bandit Pipeline (OBP)~\cite{saito2021openbanditdatasetpipeline} と Scope-RL~\cite{kiyohara2023scope} でOPEのベースラインを実装した。
その結果,2_agentフレームワークの信頼性は100%,平均改善率は106.7%であった。
Two_agentとCrewAIはいずれも45%の成功率に達し、AutoGenの34%を上回っている。
これらの結果から,OLMをベースとしたエージェントが,OPEシステムを強化する自動化された"グロースハッカー"として実現可能であることが示唆された。
関連論文リスト
- Divide, Optimize, Merge: Fine-Grained LLM Agent Optimization at Scale [19.60416591361918]
Fine-Grained Optimization (FGO)は、大規模最適化タスクを管理可能なサブセットに分割し、ターゲット最適化を実行し、プログレッシブマージを通じて最適化されたコンポーネントを体系的に結合するスケーラブルなフレームワークである。
ALFWorld、LogisticsQA、GAIAベンチマークによる評価では、FGOは既存のアプローチを1.6-8.6%上回り、平均的なプロンプトトークン消費量を56.3%削減している。
論文 参考訳(メタデータ) (2025-05-06T20:50:27Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
LLM 生成データ解析の $itRepr$oducibility を自動的に評価し,改善するための $itA$nalyst - $itI$nspector フレームワークである $itAIRepr を提示する。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - SELA: Tree-Search Enhanced LLM Agents for Automated Machine Learning [14.702694298483445]
Tree-Search Enhanced LLM Agents (SELA)は、Monte Carlo Tree Search (MCTS)を利用してAutoMLプロセスを最適化するエージェントベースのシステムである。
SELAはパイプライン構成をツリーとして表現し、エージェントが知的かつ反復的に戦略を洗練させることを可能にする。
20の機械学習データセットにわたる広範囲な評価において、従来のAutoML手法とエージェントベースのAutoML手法のパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-10-22T17:56:08Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - Enhancing Knowledge Retrieval with In-Context Learning and Semantic Search through Generative AI [3.9773527114058855]
本稿では,大規模言語モデルの生成能力とベクトルデータベースの高速かつ正確な検索能力を組み合わせた新しい手法を提案する。
開発したGTR(Generative Text Retrieval)は,非構造化データと構造化データの両方に適用可能である。
改良されたモデルであるGenerative Tabular Text Retrieval (GTR-T) は、大規模データベースクエリの効率を実証した。
論文 参考訳(メタデータ) (2024-06-13T23:08:06Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。