論文の概要: Beyond the Node: Clade-level Selection for Efficient MCTS in Automatic Heuristic Design
- arxiv url: http://arxiv.org/abs/2602.00549v1
- Date: Sat, 31 Jan 2026 06:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.25178
- Title: Beyond the Node: Clade-level Selection for Efficient MCTS in Automatic Heuristic Design
- Title(参考訳): Nodeを超えて: 自動ヒューリスティック設計における効率的なMCTSのためのクレードレベルの選択
- Authors: Kezhao Lai, Yutao Lai, Hai-Lin Liu,
- Abstract要約: Clade-AHD はノードレベルの点推定を clade-level Bayesian の信念に置き換える効率的なフレームワークである。
我々は,Clade-AHDが計算コストを大幅に削減しつつ,最先端の手法を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 2.751603258501323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Monte Carlo Tree Search (MCTS) shows promise in Large Language Model (LLM) based Automatic Heuristic Design (AHD), it suffers from a critical over-exploitation tendency under the limited computational budgets required for heuristic evaluation. To address this limitation, we propose Clade-AHD, an efficient framework that replaces node-level point estimates with clade-level Bayesian beliefs. By aggregating descendant evaluations into Beta distributions and performing Thompson Sampling over these beliefs, Clade-AHD explicitly models uncertainty to guide exploration, enabling more reliable decision-making under sparse and noisy evaluations. Extensive experiments on complex combinatorial optimization problems demonstrate that Clade-AHD consistently outperforms state-of-the-art methods while significantly reducing computational cost. The source code is publicly available at: https://github.com/Mriya0306/Clade-AHD.
- Abstract(参考訳): モンテカルロ木探索 (MCTS) は大規模言語モデル (LLM) に基づく自動ヒューリスティック設計 (AHD) において有望であるが, ヒューリスティック評価に必要な計算予算が限られているため, 急激な過膨張傾向に悩まされている。
この制限に対処するために、ノードレベルの点推定をクレードレベルのベイズ的信念に置き換える効率的なフレームワークであるClade-AHDを提案する。
これらの信念に対して、子孫の評価をベータ分布に集約し、トンプソンサンプリングを実行することで、Clade-AHDは明らかに不確実性をモデル化し、探索をガイドし、スパースでノイズの多い評価の下でより信頼性の高い意思決定を可能にする。
複雑な組合せ最適化問題に対する大規模な実験により、Clade-AHDは計算コストを大幅に削減しつつ、最先端の手法を一貫して上回ることを示した。
ソースコードは、https://github.com/Mriya0306/Clade-AHDで公開されている。
関連論文リスト
- BoRP: Bootstrapped Regression Probing for Scalable and Human-Aligned LLM Evaluation [13.561789180344533]
高忠実度満足度評価のためのスケーラブルなフレームワークであるBoRPを紹介する。
産業データセットの実験は、BoRPが生成ベースラインを著しく上回っていることを示している。
BoRPは推論コストを桁違いに削減し、CUPEDによるフルスケールの監視と高感度なA/Bテストを可能にする。
論文 参考訳(メタデータ) (2026-01-26T08:20:02Z) - Scales++: Compute Efficient Evaluation Subset Selection with Cognitive Scales Embeddings [23.9553588103042]
本稿では,タスク項目自体の本質的な特性に基づいて選択を行うことを論じ,サブセット選択をベンチマークする項目中心のアプローチを提案する。
Scales++は、競争力のある予測忠実性を達成しながら、事前選択コストを18倍以上削減します。
この項目中心のアプローチは,忠実度を著しく低下させることなく,より効率的なモデル評価を可能にすることを実証する。
論文 参考訳(メタデータ) (2025-10-30T11:28:58Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - Step-level Value Preference Optimization for Mathematical Reasoning [6.318873143509028]
SVPO(Step-level Value Preference Optimization)と呼ばれる新しいアルゴリズムを導入する。
提案手法は,領域内および領域外両方の数学的推論ベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-16T09:06:17Z) - Power Mean Estimation in Stochastic Monte-Carlo Tree_Search [25.058008522872747]
Monte-Carlo Tree Search (MCTS)は、Monte-Carloサンプリングとフォワードツリー検索を組み合わせたオンラインプランニングのための広く使われている戦略である。
UCTの理論的基礎は対数的ボーナス項の誤りにより不完全である。
本稿では,MDPに適したパワー平均推定器を用いたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T11:56:37Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Low-variance estimation in the Plackett-Luce model via quasi-Monte Carlo
sampling [58.14878401145309]
PLモデルにおいて,より標本効率の高い予測値を生成するための新しい手法を開発した。
Amazon MusicのリアルなレコメンデーションデータとYahooの学習からランクへの挑戦を理論的にも実証的にも使用しています。
論文 参考訳(メタデータ) (2022-05-12T11:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。