論文の概要: ARES-LSHADE: Autoresearch-Enhanced LSHADE with Memetic Polish for the GNBG Benchmark
- arxiv url: http://arxiv.org/abs/2605.13877v2
- Date: Sat, 16 May 2026 22:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.28101
- Title: ARES-LSHADE: Autoresearch-Enhanced LSHADE with Memetic Polish for the GNBG Benchmark
- Title(参考訳): ARES-LSHADE: GNBGベンチマークのためのmemetic Polishを備えた自動検索強化LSHADE
- Authors: Abdullah Naeem, Md Wasi Ul kabir, Manish Bhatt, Ayon Dey, Anav Katwal, Md Tamjidul Hoque,
- Abstract要約: 本稿では,ALS-LSHADEについて述べる。ALS-LSHADEは,LLMの設計した進化アルゴリズムに関するGECCO 2026コンペティションに提出された,メメティックな微分進化変種である。
このアルゴリズムはLLM-LSHADE 2025の勝者の上に構築され、2つの新しいコンポーネントに貢献した。
結果、アルゴリズムは24の関数全てを自明に解決したが、競合のブラックボックスルールに違反した。
- 参考スコア(独自算出の注目度): 0.5186554442959231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ARES-LSHADE, a memetic differential-evolution variant submitted to the GECCO 2026 competition on LLM-designed evolutionary algorithms for the Generalized Numerical Benchmark Generator (GNBG). The algorithm builds on the LLM-LSHADE 2025 winner, contributing two new components: (a) a scout-augmented mutation operator with adaptive CMA-ES integration, produced by an autonomous research loop across approximately thirty LLM-driven design experiments, and (b) a multi-start L-BFGS-B polish phase that respects strict blackbox treatment of the benchmark. On the official 31-run-per-function evaluation with the competition-specified function-evaluation budgets, ARES-LSHADE obtains 510 of 744 wins (per-function gap below 1e-8), reaching machine precision on 18 of 24 functions. The remaining six functions exhibit characteristic plateau signatures consistent with GNBG's compositional structure, and were independently identified by the autoresearch loop as the hardest of the suite. Beyond the result itself, this report documents two methodological observations: (i) an LLM-driven research loop with operator-only edit surface and fitness-only observation space converges to a characteristic plateau on this benchmark; (ii) when we initially widened the observation space to include the benchmark's compositional metadata, the resulting algorithm trivially solved all 24 functions but violated the competition's blackbox rule, which we identified before submission. We discuss this tension between LLM capability and benchmark integrity as a design consideration for future LLM-driven optimization-algorithm research. Code and reproducibility artifacts are available at https://github.com/anaeem1/ARES-LSHADE.
- Abstract(参考訳): 本稿では,汎用数値ベンチマークジェネレータ(GNBG)のためのLLM設計の進化アルゴリズムについて,GECCO 2026コンペティションに提出されたメメティック微分進化変種であるARES-LSHADEを提案する。
このアルゴリズムはLLM-LSHADE 2025の勝者の上に構築され、2つの新しいコンポーネントに貢献する。
(a)約30個のLDM駆動設計実験の自律的な研究ループによって生産される適応CMA-ES統合を備えたスカウト強化突然変異演算子及び
(b)ベンチマークの厳格なブラックボックス処理を尊重するマルチスタートL-BFGS-B研磨相。
ARES-LSHADEは、競技特定機能評価予算による公式31ラン毎機能評価で、744勝中510勝(1e-8以下)を獲得し、24機能中18ファンクションで機械精度に達した。
残りの6つの機能は、GNBGの組成構造と一致した特徴的なプラトーのシグネチャを示し、オートリサーチループによって、スイートの最も難しいものとして独立に同定された。
結果の他に,本報告では2つの方法論的考察を報告する。
i) 演算子のみの編集面と適合性のみの観察空間を備えたLLM駆動型研究ループは,このベンチマークで特徴的なプラトーに収束する。
(II) 当初、ベンチマークの合成メタデータを含むように観測空間を広げたとき、結果のアルゴリズムは、24の関数全てを自明に解決したが、競合のブラックボックスルールに違反し、提案前に特定した。
我々は、将来のLCM駆動最適化アルゴリズム研究における設計上の考慮事項として、LCM能力とベンチマーク整合性の間のこの緊張関係について論じる。
コードと再現性に関するアーティファクトはhttps://github.com/anaeem1/ARES-LSHADE.comで公開されている。
関連論文リスト
- S-LCG: Structured Linear Congruential Generator-Based Deterministic Algorithm for Search and Optimization [3.033196534183858]
本研究では,Linear Congruential Generator (LCG) の特殊変種に基づく新しい決定論的最適化アルゴリズムを提案する。
発電機の内在構造が動機であり、構造線形連成発電機 (Structured Linear Congruential Generator, S-LCG) の命名の背景にある。
論文 参考訳(メタデータ) (2026-05-06T17:57:41Z) - Breaking Validity-Induced Boundaries to Expand Algorithm Search Space: A Two-Stage AST-Based Operator for LLM-Driven Automated Heuristic Evolution [0.0]
LLM-AHDのための2段階構造に基づく進化演算子を提案する。
最初の段階では、コードの抽象構文木(AST)上で、クロスオーバーと突然変異を直接実行します。
第2段階では、LLMはこれらの無効コードを実行可能で高品質なコードに修復するために使用される。
論文 参考訳(メタデータ) (2026-04-03T07:35:43Z) - TestDecision: Sequential Test Suite Generation via Greedy Optimization and Reinforcement Learning [17.157244731153554]
MDPとしてテストスイートの生成を形式化し,その目的が単調な部分モジュラリティを示すことを示す。
本研究では,LSMを神経グリージーの専門家に変換するTestDecisionを提案する。
TestDecisionは既存の高度なメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-04-02T09:13:52Z) - AIRA_2: Overcoming Bottlenecks in AI Research Agents [31.269750755536247]
既存の研究は、AI研究エージェントにおける3つの構造的パフォーマンスボトルネックを特定している。
AIRA$は、3つのアーキテクチャ選択を通じてこれらのボトルネックに対処します。
MLE-bench-30では、AIRA$が平均71.8%のパーセンタイルランクを24時間で達成し、前回の69.9%を上回った。
論文 参考訳(メタデータ) (2026-03-27T15:02:43Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures [48.83701310501069]
大規模言語モデル(LLM)は、プログラム合成において優れているが、ニューラルネットワーク設計(信頼性、性能、構造的ノベルティ)を自律的にナビゲートする能力は、未調査のままである。
コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
論文 参考訳(メタデータ) (2026-01-06T13:20:28Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [66.87201770167012]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - A Multi-operator Ensemble LSHADE with Restart and Local Search Mechanisms for Single-objective Optimization [0.0]
mLSHADE-RLは、シングルオブジェクト最適化におけるCEC 2017コンペティションの勝者の1つであるLSHADE-cnEpSinの拡張版である。
DE/current-to-pbest-weight/1はアーカイブなし、DE/current-to-pbest/1はアーカイブなし、DE/current-to-ordpbest-weight/1は元のLSHADE-cnEpSinに統合される。
LSHADE-cnEpSinは、CEC 2024コンペティションにおいて、単一目的制約付き最適化で30次元でテストされる。
論文 参考訳(メタデータ) (2024-09-24T11:49:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。