論文の概要: Let the Barbarians In: How AI Can Accelerate Systems Performance Research
- arxiv url: http://arxiv.org/abs/2512.14806v4
- Date: Mon, 22 Dec 2025 08:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 14:49:56.260978
- Title: Let the Barbarians In: How AI Can Accelerate Systems Performance Research
- Title(参考訳): AIがシステムパフォーマンス研究を加速する方法
- Authors: Audrey Cheng, Shu Liu, Melissa Pan, Zhifei Li, Shubham Agarwal, Mert Cemri, Bowen Wang, Alexander Krentsel, Tian Xia, Jongseok Park, Shuo Yang, Jeff Chen, Lakshya Agrawal, Ashwin Naren, Shulu Li, Ruiying Ma, Aditya Desai, Jiarong Xing, Koushik Sen, Matei Zaharia, Ion Stoica,
- Abstract要約: 我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
- 参考スコア(独自算出の注目度): 80.43506848683633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) is beginning to transform the research process by automating the discovery of new solutions. This shift depends on the availability of reliable verifiers, which AI-driven approaches require to validate candidate solutions. Research focused on improving systems performance is especially well-suited to this paradigm because system performance problems naturally admit such verifiers: candidates can be implemented in real systems or simulators and evaluated against predefined workloads. We term this iterative cycle of generation, evaluation, and refinement AI-Driven Research for Systems (ADRS). Using several open-source ADRS instances (i.e., OpenEvolve, GEPA, and ShinkaEvolve), we demonstrate across ten case studies (e.g., multi-region cloud scheduling, mixture-of-experts load balancing, LLM-based SQL, transaction scheduling) that ADRS-generated solutions can match or even outperform human state-of-the-art designs. Based on these findings, we outline best practices (e.g., level of prompt specification, amount of feedback, robust evaluation) for effectively using ADRS, and we discuss future research directions and their implications. Although we do not yet have a universal recipe for applying ADRS across all of systems research, we hope our preliminary findings, together with the challenges we identify, offer meaningful guidance for future work as researcher effort shifts increasingly toward problem formulation and strategic oversight. Note: This paper is an extension of our prior work [14]. It adds extensive evaluation across multiple ADRS frameworks and provides deeper analysis and insights into best practices.
- Abstract(参考訳): 人工知能(AI)は、新しいソリューションの発見を自動化することによって、研究プロセスを変革し始めている。
このシフトは、AI駆動のアプローチが候補ソリューションを検証するために必要な信頼性の高い検証器の可用性に依存する。
システム性能の改善に焦点を当てた研究はこのパラダイムに特に適しているのは、システム性能の問題がこのような検証を自然に認めるからである。
この繰り返しサイクルをAI駆動システム研究(ADRS)と呼ぶ。
いくつかのオープンソースのADRSインスタンス(OpenEvolve、GEPA、S ShinkaEvolve)を使用して、ADRSの生成したソリューションがヒトの最先端設計にマッチしたり、あるいは性能を上回ることのできる10のケーススタディ(マルチリージョンクラウドスケジューリング、Mix-of-expertsロードバランシング、LLMベースのSQL、トランザクションスケジューリングなど)を実証する。
これらの知見に基づき,ADRSを効果的に活用するためのベストプラクティス(即時仕様のレベル,フィードバックの量,堅牢な評価)を概説し,今後の研究の方向性とその意義について論じる。
システム研究全般にADRSを適用するための普遍的なレシピをまだ持っていませんが、予備的な発見とともに、我々が特定した課題とともに、研究者の努力が問題定式化や戦略的監視へとシフトするにつれて、将来の作業に有意義なガイダンスを提供することを期待しています。
注:本論文はこれまでの研究の延長である[14]。
複数のADRSフレームワークに広範な評価を追加し、ベストプラクティスに関するより深い分析と洞察を提供する。
関連論文リスト
- SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。
このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。
我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-07T17:49:24Z) - A Systematic Review of Key Retrieval-Augmented Generation (RAG) Systems: Progress, Gaps, and Future Directions [1.4931265249949528]
Retrieval-Augmented Generation (RAG)は自然言語処理(NLP)における大きな進歩である
RAGは、大規模言語モデル(LLM)と情報検索システムを組み合わせて、事実的根拠付け、正確性、文脈的関連性を高める。
本稿ではRAGの体系的なレビューを行い、最近の最先端実装に対するオープンドメイン質問の早期展開から進化を辿る。
論文 参考訳(メタデータ) (2025-07-25T03:05:46Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - Knowing You Don't Know: Learning When to Continue Search in Multi-round RAG through Self-Practicing [4.874077691069634]
Retrieval Augmented Generation (RAG)は、言語モデルの知識を高め、AI生成幻覚を減らす強力な能力を示している。
現在のマルチラウンドRAGシステムは、十分な情報が既に取得されている場合でも検索を続けることができる。
本稿では,RAGシステムの自己認識と多ラウンド検索機能を強化するための新しいフレームワークSIM-RAGを提案する。
論文 参考訳(メタデータ) (2025-05-05T17:39:35Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Leveraging Retrieval-Augmented Generation for Persian University Knowledge Retrieval [2.749898166276854]
本稿では,Large Language Models (LLM) を用いたレトリーバル拡張生成(RAG)パイプラインを用いた革新的なアプローチを提案する。
大学公式Webページからデータを体系的に抽出することにより、ユーザクエリに対する正確で文脈的に関連する応答を生成する。
実験の結果, 生成した応答の精度と関連性に大きな改善が認められた。
論文 参考訳(メタデータ) (2024-11-09T17:38:01Z) - Scaling up Search Engine Audits: Practical Insights for Algorithm
Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。
複数のデータ収集にまたがる研究インフラの性能を実証する。
仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文 参考訳(メタデータ) (2021-06-10T15:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。