論文の概要: $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation
- arxiv url: http://arxiv.org/abs/2503.13288v1
- Date: Mon, 17 Mar 2025 15:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:43.362498
- Title: $φ$-Decoding: Adaptive Foresight Sampling for Balanced Inference-Time Exploration and Exploitation
- Title(参考訳): $φ$-decoding: バランスのとれた推論時間探索と爆発のための適応的な予測サンプリング
- Authors: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Jun Liu, Qika Lin, Zhiyong Wu,
- Abstract要約: インタイム最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
我々は、デコード戦略を事前サンプリングとして、シミュレーションされた将来のステップを利用して、大域的に最適なステップ推定を得る。
実験では、$phi$-Decodingはパフォーマンスと効率の両方において、強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 22.607133083903125
- License:
- Abstract: Inference-time optimization scales computation to derive deliberate reasoning steps for effective performance. While previous search-based strategies address the short-sightedness of auto-regressive generation, the vast search space leads to excessive exploration and insufficient exploitation. To strike an efficient balance to derive the optimal step, we frame the decoding strategy as foresight sampling, leveraging simulated future steps to obtain globally optimal step estimation. Built on it, we propose a novel decoding strategy, named $\phi$-Decoding. To provide a precise and expressive estimation of step value, $\phi$-Decoding approximates two distributions via foresight and clustering. Sampling from the joint distribution, the optimal steps can be selected for exploitation. To support adaptive computation allocation, we propose in-width and in-depth pruning strategies, featuring a light-weight solution to achieve inference efficiency. Extensive experiments across seven benchmarks show $\phi$-Decoding outperforms strong baselines in both performance and efficiency. Additional analysis demonstrates its generalization across various LLMs and scalability across a wide range of computing budgets. The code will be released at https://github.com/xufangzhi/phi-Decoding, and the open-source PyPI package is coming soon.
- Abstract(参考訳): 推論時間最適化は計算をスケールし、効果的なパフォーマンスのための意図的な推論ステップを導出する。
従来の検索ベースの戦略は、自動回帰生成の近視性に対処するが、膨大な検索スペースは過剰な探索と不十分なエクスプロイトに繋がる。
最適なステップを導出するために効率的なバランスをとるために、シミュレーションされた将来のステップを利用して、デコード戦略を事前サンプリングとして枠組化し、世界規模で最適なステップ推定を行う。
そこで我々は$\phi$-Decodingという新しいデコーディング戦略を提案する。
フォアサイトとクラスタリングによる2つの分布を近似する$\phi$-Decodingというステップ値の正確かつ表現力のある推定方法を提供する。
関節分布からサンプリングすることで, 最適ステップを選択することができる。
適応的な計算割当を支援するために,推定効率を実現する軽量な解を特徴とする,幅内および深さ内プルーニング戦略を提案する。
7つのベンチマークにわたる大規模な実験は、$\phi$-Decodingがパフォーマンスと効率の両方において強力なベースラインを上回ります。
さらなる分析により、様々な LLM にまたがる一般化と、幅広いコンピューティング予算にまたがるスケーラビリティが示される。
コードはhttps://github.com/xufangzhi/phi-Decodingでリリースされる。
関連論文リスト
- Optimistic ε-Greedy Exploration for Cooperative Multi-Agent Reinforcement Learning [16.049852176246038]
評価値推定の精度向上に着目したオプティスティックな$epsilon$-Greedy Explorationを提案する。
本研究では,探索中の最適動作とサンプル動作を推定するための楽観的な更新ネットワークを導入し,探索中に$epsilon$の確率で分布からサンプル動作を抽出する。
様々な環境での実験結果から、Optimistic $epsilon$-Greedy Explorationはアルゴリズムが最適以下の解を効果的に阻止することを示した。
論文 参考訳(メタデータ) (2025-02-05T12:06:54Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - A Scalable and Near-Optimal Conformance Checking Approach for Long Traces [3.3170150440851485]
プロセスマイニングにおける重要なタスクであるコンフォーマルティチェックは、最適なアライメントを見つけるという指数関数的な複雑さのため、計算不能になる可能性がある。
本稿では,これらの拡張性に対処する新しいスライディングウインドウ手法を提案する。
トレースを管理可能なサブトレースに分割し,プロセスモデルと反復的に整列することにより,検索空間を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-08T11:04:42Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。
RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文 参考訳(メタデータ) (2020-07-09T10:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。