論文の概要: MetaScale: Test-Time Scaling with Evolving Meta-Thoughts
- arxiv url: http://arxiv.org/abs/2503.13447v1
- Date: Mon, 17 Mar 2025 17:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:44.016051
- Title: MetaScale: Test-Time Scaling with Evolving Meta-Thoughts
- Title(参考訳): MetaScale: 進化するMeta-Thoughtによるテスト時間スケーリング
- Authors: Qin Liu, Wenxuan Zhou, Nan Xu, James Y. Huang, Fei Wang, Sheng Zhang, Hoifung Poon, Muhao Chen,
- Abstract要約: 実験の結果、MetaScaleは標準推論アプローチよりも一貫して優れています。
METASCALEは、サンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成する。
- 参考スコア(独自算出の注目度): 51.35594569020857
- License:
- Abstract: One critical challenge for large language models (LLMs) for making complex reasoning is their reliance on matching reasoning patterns from training data, instead of proactively selecting the most appropriate cognitive strategy to solve a given task. Existing approaches impose fixed cognitive structures that enhance performance in specific tasks but lack adaptability across diverse scenarios. To address this limitation, we introduce METASCALE, a test-time scaling framework based on meta-thoughts -- adaptive thinking strategies tailored to each task. METASCALE initializes a pool of candidate meta-thoughts, then iteratively selects and evaluates them using a multi-armed bandit algorithm with upper confidence bound selection, guided by a reward model. To further enhance adaptability, a genetic algorithm evolves high-reward meta-thoughts, refining and extending the strategy pool over time. By dynamically proposing and optimizing meta-thoughts at inference time, METASCALE improves both accuracy and generalization across a wide range of tasks. Experimental results demonstrate that MetaScale consistently outperforms standard inference approaches, achieving an 11% performance gain in win rate on Arena-Hard for GPT-4o, surpassing o1-mini by 0.9% under style control. Notably, METASCALE scales more effectively with increasing sampling budgets and produces more structured, expert-level responses.
- Abstract(参考訳): 複雑な推論を行うための大きな言語モデル(LLM)にとって重要な課題のひとつは、与えられたタスクを解決するのに最適な認知戦略を積極的に選択するのではなく、トレーニングデータからの推論パターンの一致に依存することである。
既存のアプローチでは、特定のタスクのパフォーマンスを向上させる固定された認知構造が課されるが、さまざまなシナリオに対する適応性が欠如している。
この制限に対処するため、メタ思想に基づくテスト時のスケーリングフレームワークであるMETASCALEを紹介します。
METASCALEは、候補となるメタ思想のプールを初期化し、繰り返し選択し、報酬モデルで導かれる高信頼境界選択を持つマルチアームバンドアルゴリズムを用いて評価する。
適応性をさらに向上するため、遺伝的アルゴリズムは高度なメタ思考を進化させ、時間とともに戦略プールを精製し拡張する。
推論時にメタ思考を動的に提案し最適化することにより、METASCALEは幅広いタスクにわたる精度と一般化の両方を改善する。
実験の結果、MetaScaleは標準推論手法を一貫して上回り、GPT-4oのArena-Hardで11%の性能向上を達成し、o1-miniを0.9%上回った。
特に、METASCALEはサンプリング予算を増やしてより効果的にスケールし、より構造化された専門家レベルのレスポンスを生成します。
関連論文リスト
- MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - RLEMMO: Evolutionary Multimodal Optimization Assisted By Deep Reinforcement Learning [8.389454219309837]
マルチモーダル最適化問題 (MMOP) は, 限られた関数評価において困難となる最適解の探索を必要とする。
本稿では,メタブラックボックス最適化フレームワークであるRLEMMOを提案する。
品質と多様性の両方を促進する新しい報酬メカニズムにより、RLEMMOはポリシー勾配アルゴリズムを用いて効果的に訓練できる。
論文 参考訳(メタデータ) (2024-04-12T05:02:49Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Meta-learning with an Adaptive Task Scheduler [93.63502984214918]
既存のメタ学習アルゴリズムは、一様確率でランダムにメタトレーニングタスクをサンプリングする。
タスクは、限られた数のメタトレーニングタスクを考えると、ノイズや不均衡に有害である可能性が高い。
メタトレーニングプロセスのための適応タスクスケジューラ(ATS)を提案する。
論文 参考訳(メタデータ) (2021-10-26T22:16:35Z) - Meta Learning Black-Box Population-Based Optimizers [0.0]
人口ベースのブラックボックス一般化を推論するメタラーニングの利用を提案する。
メタロス関数は,学習アルゴリズムが検索動作を変更することを促進し,新たなコンテキストに容易に適合できることを示す。
論文 参考訳(メタデータ) (2021-03-05T08:13:25Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Improving Generalization in Meta-learning via Task Augmentation [69.83677015207527]
本稿ではMetaMixとChannel Shuffleの2つのタスク拡張手法を提案する。
MetaMixとChannel Shuffleはどちらも、多くのデータセットにまたがる大きなマージンによって、最先端の結果を上回っている。
論文 参考訳(メタデータ) (2020-07-26T01:50:42Z) - Guarantees for Tuning the Step Size using a Learning-to-Learn Approach [18.838453594698166]
ステップサイズを2次的損失に調整する簡単な問題に対して、学習から学習までのアプローチに対してメタ最適化を保証する。
メタ・グラディエント・オブジェクトを設計してメタ・グラディエントを束縛したままにしておく方法はあるが、バックプロパゲーションを用いて直接メタ・グラディエントを計算すれば、数値的な問題が発生する。
また,メタオブジェクトを別個の検証セットで計算し,学習性能を確保する必要がある場合の特徴付けを行う。
論文 参考訳(メタデータ) (2020-06-30T02:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。