論文の概要: Towards Direct Evaluation of Harness Optimizers via Priority Ranking
- arxiv url: http://arxiv.org/abs/2605.22505v1
- Date: Thu, 21 May 2026 13:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.578622
- Title: Towards Direct Evaluation of Harness Optimizers via Priority Ranking
- Title(参考訳): 優先ランク付けによる高調度最適化の直接評価に向けて
- Authors: Kai Tzu-iunn Ong, Minseok Kang, Dongwook Choi, Junhee Cho, Seungju Kim, Seungwon Lim, Geunha Jang, Minwoo Oh, Bogyung Jeong, Sunghwan Kim, Taeyoon Kwon, Jinyoung Yeo,
- Abstract要約: ハーネス最適化がエージェントの情報更新アクションによって駆動されるのか、単にトライ・アンド・エラーであるのかは不明だ。
ハーネスを直接評価するのは簡単ではなく、オラクルハーネスが不足しているためコストがかかる。
評価を行うための簡易で低コストな設計、すなわち優先順位付けを提示する。
- 参考スコア(独自算出の注目度): 18.644878456671886
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Harness optimization enables automated agent creation by having an optimizer agent iteratively update the harness of target agents. Despite its success, current studies evaluate optimizers solely by observing target agents' performance gains. This indirect end-improvement evaluation neglects optimizers' actions at intermediate steps, which are often erroneous and hinder agent performance. Therefore, it is unclear whether harness optimization is driven by optimizers' informed update actions or simply trial-and-error. This necessitates direct evaluation of harness optimizers. However, evaluating harness optimizers directly is non-trivial and costly due to the lack of oracle harnesses. To address this, we present a simple, low-cost design to directly evaluate them, namely priority ranking. By asking harness optimizers to rank components (e.g., tools) in a given harness by their potential to improve/hinder agent performance when updated, our design quantifies optimizer ability at the step level without expensive rollouts or manual examination. More importantly, optimizers' ranking performance correlates with their ability to improve agents in actual multi-step harness optimization, establishing priority ranking as a reliable predictor of optimization ability. Priority ranking is enabled by Shor, a collection of 182 human-verified optimization scenarios spanning across domains, designs, and time stages. Codes and data can be found at https://github.com/k59118/Harness_Optimizer_Evaluation.
- Abstract(参考訳): ハーネス最適化は、最適化エージェントを目標エージェントのハーネスを反復的に更新することにより、自動エージェント作成を可能にする。
その成功にもかかわらず、近年の研究では、ターゲットエージェントのパフォーマンス向上を観察することによって、オプティマイザの評価を行っている。
この間接的な端改善評価は、しばしば誤ってエージェントのパフォーマンスを阻害する中間ステップでのオプティマイザの動作を無視する。
したがって、最適化手法がオプティマイザのインフォメーション更新アクションによって駆動されるのか、単にトライ・アンド・エラーであるのかは不明である。
これは、ハーネスオプティマイザの直接評価を必要とする。
しかし、オプティマイザを直接評価するのは簡単ではなく、オラクルハーネスが不足しているためコストがかかる。
この問題に対処するために、我々はそれらを直接評価するためのシンプルで低コストな設計、すなわち優先順位付けを提案する。
アップデート時にエージェントのパフォーマンスを向上/改善する可能性によって、Helmオプティマイザに与えられたハーネス内のコンポーネント(例えばツール)のランク付けを依頼することで、当社の設計は、高価なロールアウトや手作業による検査なしに、ステップレベルでのオプティマイザ能力を定量化する。
さらに重要なことは、オプティマイザのランク付け性能は、実際のマルチステップハーネス最適化においてエージェントを改善する能力と相関し、信頼性の高い最適化能力の予測器として優先順位付けを確立することである。
Shorは、ドメイン、設計、時間ステージにまたがる182の人間認証最適化シナリオのコレクションである。
コードとデータはhttps://github.com/k59118/Harness_Optimizer_Evaluationで確認できる。
関連論文リスト
- Escher-Loop: Mutual Evolution by Closed-Loop Self-Referential Optimization [7.89766538351877]
Escher-Loopは2つの異なる集団の進化を運用するフレームワークである。
Escher-Loopは静的なベースラインの性能天井を効果的に越え、絶対的な最高性能を達成する。
特筆すべきは、エージェントがハイパフォーマンスなタスクエージェントの要求に合うように戦略を動的に適応させることである。
論文 参考訳(メタデータ) (2026-04-25T23:46:08Z) - Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。
$SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。
評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T16:04:03Z) - Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。
これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。
本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-15T15:14:22Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。
私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。
AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文 参考訳(メタデータ) (2024-01-17T00:16:46Z) - DeepHive: A multi-agent reinforcement learning approach for automated
discovery of swarm-based optimization policies [0.0]
Swarm内の各エージェントの状態は、設計空間内の現在の位置と関数値として定義される。
提案手法は,様々なベンチマーク最適化関数を用いて検証し,他のグローバル最適化手法との比較を行った。
論文 参考訳(メタデータ) (2023-03-29T18:08:08Z) - Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control [17.430247457941284]
CMA-ESのような最も成功したブラックボックスは、新しい検索分布を得るために個々のサンプルのランキングを使用する。
これらのアルゴリズムは、通常、検索分布の質の高い平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
対照的に、Relative Entropy Search (MORE)アルゴリズムは、ランキングを使わずに、期待されるフィットネス機能を直接最適化する。
論文 参考訳(メタデータ) (2022-05-24T16:25:15Z) - Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。
人口ベーストレーニングの形式は、この自己学習の組織化に使用される。
このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文 参考訳(メタデータ) (2021-01-14T19:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。