論文の概要: Two-Fidelity Best-Action Identification for Stochastic Minimax Tree
- arxiv url: http://arxiv.org/abs/2606.01708v1
- Date: Mon, 01 Jun 2026 05:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.386476
- Title: Two-Fidelity Best-Action Identification for Stochastic Minimax Tree
- Title(参考訳): 確率最小木に対する2次元Best-Actionの同定
- Authors: Peter Chen, Xi Chen,
- Abstract要約: ミニマックス樹における固定信頼ベストアクション識別(BAI)について検討した。
本研究では,複数要素の平坦なバンドイットのアイデアを木にもたらす2要素木探索アルゴリズムである2FFSを提案する。
- 参考スコア(独自算出の注目度): 7.171524130884609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study fixed-confidence best-action identification (BAI) in stochastic minimax trees. This problem is increasingly relevant in modern AI planning, where deep minimax search and Monte Carlo Tree Search (MCTS) with language model long rollouts face a fundamental tradeoff: heuristic evaluations are cheap but biased, while accurate rollouts are reliable but prohibitively expensive. We propose 2FFS, a two-fidelity tree-search algorithm that brings multi-fidelity flat bandit ideas into trees. The algorithm combines minimax-style fast expansion with MCTS-style stochastic sampling, adaptively deciding when to exploit cheap biased evaluations and when to invoke expensive accurate evaluations for local certification. We prove fixed-confidence correctness, establish finite stopping for exact identification, and give a polynomial-depth cost upper bound for general-depth trees. Across numerical stochastic-tree experiments, 2FFS uses substantially fewer samples and computational operations comparing to existing BAI-MCTS baseline.
- Abstract(参考訳): 確率的ミニマックス木における固定信頼ベストアクション識別(BAI)について検討した。
この問題は、ディープミニマックスサーチと言語モデルによる長いロールアウトを伴うモンテカルロツリーサーチ(MCTS)が根本的なトレードオフに直面している、現代のAI計画においてますます重要になっている。
本研究では,複数要素の平坦なバンドイットのアイデアを木にもたらす2要素木探索アルゴリズムである2FFSを提案する。
このアルゴリズムは、ミニマックス方式の高速展開とMCTS方式の確率的サンプリングを組み合わせることで、安価なバイアス評価をいつ活用するか、また、ローカル認証のために高価な正確な評価をいつ実施するかを適応的に決定する。
我々は、固定信頼の正しさを証明し、正確な同定のために有限停止を確立し、一般深度木に対して多項式深度コスト上界を与える。
数値確率木実験全体では、2FFSは既存のBAI-MCTSベースラインと比較してかなり少ないサンプルと計算演算を使用する。
関連論文リスト
- Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models [13.433506313486701]
ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-27T06:22:45Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。
我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。
典型的資源の5~15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Adaptive Split Balancing for Optimal Random Forest [8.916614661563893]
そこで本研究では,新しい適応型分割バランス法を用いて木を構築するランダムフォレストアルゴリズムを提案する。
本手法は,データから木構造を適応的に学習しながら,シンプルでスムーズなシナリオで最適性を実現する。
論文 参考訳(メタデータ) (2024-02-17T09:10:40Z) - Uncovering Feature Interdependencies in High-Noise Environments with
Stepwise Lookahead Decision Forests [0.0]
ランダムフォレストアルゴリズムの「Stepwise lookahead」変異は、二項特徴相互依存性をよりよく発見する能力を示す。
銅先物取引の長期的戦略は、毎日の物価リターンの兆候を予測するために、欲望と無作為な森林の両方を訓練することで実証される。
論文 参考訳(メタデータ) (2020-09-30T11:31:10Z) - On $\ell_p$-norm Robustness of Ensemble Stumps and Trees [83.81523991945018]
我々は,アンサンブルスタンプの音響検証のための効率的なプログラムベースアルゴリズムを開発した。
我々は,アンサンブル・スタンプや木を訓練するための最初の認証された防御法を,$ell_p$ノルム摂動に関して実証した。
論文 参考訳(メタデータ) (2020-08-20T03:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。