Fugu-MT 論文翻訳(概要): Evolution without an Oracle: Driving Effective Evolution with LLM Judges

論文の概要: Evolution without an Oracle: Driving Effective Evolution with LLM Judges

arxiv url: http://arxiv.org/abs/2511.19489v1
Date: Sun, 23 Nov 2025 08:20:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.036317
Title: Evolution without an Oracle: Driving Effective Evolution with LLM Judges
Title（参考訳）: Oracleのない進化: LLM判事による効果的な進化の推進
Authors: Zhe Zhao, Yuheng Yang, Haibin Wen, Xiaojie Qiu, Zaixi Zhang, Qingfu Zhang,
Abstract要約: プロブレム仕様」を通じて主観的評価の固有のノイズをテーパーするフレームワークであるMADEを紹介する。 MADEは、ソフトウェア要件の満足度を50%以上向上させます。この研究は、"計算可能なメトリクス"の最適化から"説明可能な品質"への移行という、基本的なパラダイムシフトを検証する。
参考スコア（独自算出の注目度）: 29.470273035077984
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The integration of Large Language Models (LLMs) with Evolutionary Computation (EC) has unlocked new frontiers in scientific discovery but remains shackled by a fundamental constraint: the reliance on an Oracle--an objective, machine-computable fitness function. This paper breaks this barrier by asking: Can evolution thrive in a purely subjective landscape governed solely by LLM judges? We introduce MADE (Multi-Agent Decomposed Evolution), a framework that tames the inherent noise of subjective evaluation through "Problem Specification." By decomposing vague instructions into specific, verifiable sub-requirements, MADE transforms high-variance LLM feedback into stable, precise selection pressure. The results are transformative: across complex benchmarks like DevAI and InfoBench, MADE outperforms strong baselines by over 50% in software requirement satisfaction (39.9% to 61.9%) and achieves a 95% perfect pass rate on complex instruction following. This work validates a fundamental paradigm shift: moving from optimizing "computable metrics" to "describable qualities," thereby unlocking evolutionary optimization for the vast open-ended domains where no ground truth exists.
Abstract（参考訳）: 大規模言語モデル(LLM)と進化的計算(EC)の統合は、科学的な発見において新たなフロンティアを解放したが、Oracleへの依存という根本的な制約、すなわち、マシン計算可能なフィットネス機能によって依然として揺るがされている。進化は、LLMの裁判官によってのみ支配される純粋に主観的な風景の中で育つことができるか? 本稿では,MADE(Multi-Agent Decomposed Evolution)について紹介する。曖昧な命令を特定の検証可能なサブ要求に分解することにより、MADEは高分散LDMフィードバックを安定かつ正確な選択圧力に変換する。 DevAIやInfoBenchのような複雑なベンチマークにおいて、MADEはソフトウェア要件の満足度(39.9%から61.9%)を50%以上上回り、複雑な命令に対する95%完全パスレートを達成する。この研究は、「計算可能なメトリクス」の最適化から「説明可能な品質」への移行という根本的なパラダイムシフトを検証する。

関連論文リスト

Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文参考訳（メタデータ） (2025-10-27T17:58:02Z)
Can LLMs Correct Themselves? A Benchmark of Self-Correction in LLMs [57.10533368622962]
大規模言語モデル(LLM)の自己補正は、推論性能を高める重要な要素として現れる。本研究では,自己補正戦略の有効性を評価するためのベンチマークであるCorrectBenchを紹介する。その結果,1) 自己補正手法は, 複雑な推論タスクにおいて, 精度を向上させることが可能であり, 2) 異なる自己補正戦略の混合により, 効率は低下するものの, さらなる改善がもたらされることが明らかとなった。
論文参考訳（メタデータ） (2025-10-17T02:40:19Z)
EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing [45.89558878854675]
EvolMathEvalは、進化テストに基づく自動数学的ベンチマーク生成と進化のフレームワークである。連続的な自己イテレーションによって大量の高次問題を生成することができる。また、進化を通じてGSM8Kのような公開データセットの複雑さを著しく向上させ、モデルの精度を平均48%削減する。
論文参考訳（メタデータ） (2025-08-18T15:24:10Z)
AutoEvoEval: An Automated Framework for Evolving Close-Ended LLM Evaluation Data [0.6278186810520364]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。既存の評価ベンチマークは、しばしば静的で、その堅牢性と一般化を十分に評価するのに不十分である。本稿では,質問応答などのクローズドなタスクのための進化型評価フレームワークであるAutoEvoEvalを提案する。
論文参考訳（メタデータ） (2025-06-30T11:18:56Z)
Relative Overfitting and Accept-Reject Framework [5.465098504510676]
本稿では,性能向上のためにモデルをセグメント化する方法を管理するアンサンブルフレームワークを提案する。 NLPの領域におけるこのフレームワークのパターンを詳述し、コンピュータビジョン(CV)や科学のためのAIなど他の分野に簡単に説明します。
論文参考訳（メタデータ） (2025-05-12T17:36:14Z)
Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。 ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文参考訳（メタデータ） (2025-03-03T16:08:33Z)
Can Large Language Models Be Trusted as Evolutionary Optimizers for Network-Structured Combinatorial Problems? [8.431866560904753]
大規模言語モデル(LLM)は、言語理解とさまざまなドメイン間の推論において強力な能力を示している。本研究では,問題構造に係わるLLMの能力を評価するための体系的枠組みを提案する。我々は、よく使われる進化的手法(EVO)を採用し、LLM演算子の出力忠実度を厳格に評価する包括的評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-25T05:19:19Z)
A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文参考訳（メタデータ） (2024-04-22T17:43:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。