論文の概要: W2S-AlignTree: Weak-to-Strong Inference-Time Alignment for Large Language Models via Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2511.11518v1
- Date: Fri, 14 Nov 2025 17:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.750139
- Title: W2S-AlignTree: Weak-to-Strong Inference-Time Alignment for Large Language Models via Monte Carlo Tree Search
- Title(参考訳): W2S-AlignTree:モンテカルロ木探索による大規模言語モデルの弱から強の推論時間アライメント
- Authors: Zhenyu Ding, Yuhao Wang, Tengyue Xiao, Haoying Wang, Guojun Ma, Mingyang Wan, Caigui Jiang, Ning Ding,
- Abstract要約: W2S-AlignTreeは、プラグアンドプレイの推論時間アライメントフレームワークである。
モンテカルロ木探索(MCTS)とWak-to-Strong Generalizationパラダイムを初めて組み合わせている。
パラメータを変更することなく、強力なモデル生成時のきめ細かいガイダンスを可能にする。
- 参考スコア(独自算出の注目度): 12.140738410354984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities, yet their outputs often suffer from misalignment with human preferences due to the inadequacy of weak supervision and a lack of fine-grained control. Training-time alignment methods like Reinforcement Learning from Human Feedback (RLHF) face prohibitive costs in expert supervision and inherent scalability limitations, offering limited dynamic control during inference. Consequently, there is an urgent need for scalable and adaptable alignment mechanisms. To address this, we propose W2S-AlignTree, a pioneering plug-and-play inference-time alignment framework that synergistically combines Monte Carlo Tree Search (MCTS) with the Weak-to-Strong Generalization paradigm for the first time. W2S-AlignTree formulates LLM alignment as an optimal heuristic search problem within a generative search tree. By leveraging weak model's real-time, step-level signals as alignment proxies and introducing an Entropy-Aware exploration mechanism, W2S-AlignTree enables fine-grained guidance during strong model's generation without modifying its parameters. The approach dynamically balances exploration and exploitation in high-dimensional generation search trees. Experiments across controlled sentiment generation, summarization, and instruction-following show that W2S-AlignTree consistently outperforms strong baselines. Notably, W2S-AlignTree raises the performance of Llama3-8B from 1.89 to 2.19, a relative improvement of 15.9 on the summarization task.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示すが、その出力は、弱い監督の欠如ときめ細かな制御の欠如により、人間の好みとの不一致に悩まされることが多い。
Reinforcement Learning from Human Feedback (RLHF)のようなトレーニング時間アライメント手法は、専門家の監督と固有のスケーラビリティの制限において禁止的なコストに直面し、推論中に制限された動的制御を提供する。
したがって、スケーラブルで適応可能なアライメントメカニズムが緊急に必要である。
W2S-AlignTreeは,モンテカルロ木探索(MCTS)とWak-to-Strong一般化パラダイムを相乗的に組み合わせた,先駆的なプラグアンドプレイ推論時アライメントフレームワークである。
W2S-AlignTreeは、生成探索木内の最適ヒューリスティック探索問題としてLLMアライメントを定式化する。
弱いモデルのリアルタイムステップレベルの信号をアライメントプロキシとして利用し、エントロピー・アウェア探索機構を導入することで、W2S-AlignTreeはパラメータを変更することなく、強力なモデル生成時のきめ細かいガイダンスを可能にする。
このアプローチは、高次元の世代探索木における探索と利用を動的にバランスさせる。
W2S-AlignTreeは、制御された感情生成、要約、命令追従の実験により、強いベースラインを一貫して上回ることを示した。
特に、W2S-AlignTreeは、Llama3-8Bの性能を1.89から2.19に引き上げている。
関連論文リスト
- Controllable Graph Generation with Diffusion Models via Inference-Time Tree Search Guidance [36.29334590991777]
グラフ生成は、Webスケールシステム、知識グラフ、薬物や物質発見などの科学領域にまたがる幅広い応用によるグラフ学習の基本的な問題である。
最近のアプローチでは、ステップバイステップの生成に拡散モデルを活用するが、非条件拡散は望ましい性質をほとんど制御せず、しばしば不安定な品質と新しい目的を取り入れることの難しさをもたらす。
推論時間誘導法は、再トレーニングせずにサンプリングプロセスを調整することでこれらの問題を緩和するが、それらは本質的に局所的であり、制御性に制限される。
本稿では,モンテカルロ木探索 (MCTS) で誘導される,制御可能なグラフ生成のための二空間拡散フレームワークであるTreeDiffを提案する。
論文 参考訳(メタデータ) (2025-10-12T01:40:33Z) - Dynamic-TreeRPO: Breaking the Independent Trajectory Bottleneck with Structured Sampling [14.415169190908676]
本研究では,木構造による雑音強度の深さに沿って,スライディング・ウインドウ・サンプリング・ストラテジーを実装したDynamic-TreeRPOを提案する。
木層ごとによく設計されたノイズ強度により、Dynamic-TreeRPOは余分な計算コストを伴わずに探索のばらつきを高めることができる。
論文 参考訳(メタデータ) (2025-09-27T14:59:31Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models [26.393123295267642]
W2SG(Wak-to-Strong generalization)は、弱いモデルから監督された強いモデルの完全な能力を引き出す新しい傾向である。
我々は、弱いモデルによって生成された中間作用の軌跡を持つ強いモデルを微調整する。
我々の経験的評価は、多種多様なタスク領域にわたる推論と意思決定能力を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-07-25T00:17:09Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks [3.912345988363511]
本稿では、回帰課題の文脈において、木に基づくニューラルネットワークモデルの振る舞いを復号化するための取り組みを行う。
我々は,ツリーベースのCNN,Code2Vec,Transformerベースのメソッドといった確立されたモデルの応用を拡張し,ASTに解析することでソースコードの実行時間を予測する。
提案するデュアルトランスは,多様なデータセットにまたがる顕著な適応性とロバストな性能を示す。
論文 参考訳(メタデータ) (2024-06-17T11:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。