論文の概要: W2S-AlignTree: Weak-to-Strong Inference-Time Alignment for Large Language Models via Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2511.11518v1
- Date: Fri, 14 Nov 2025 17:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.750139
- Title: W2S-AlignTree: Weak-to-Strong Inference-Time Alignment for Large Language Models via Monte Carlo Tree Search
- Title(参考訳): W2S-AlignTree:モンテカルロ木探索による大規模言語モデルの弱から強の推論時間アライメント
- Authors: Zhenyu Ding, Yuhao Wang, Tengyue Xiao, Haoying Wang, Guojun Ma, Mingyang Wan, Caigui Jiang, Ning Ding,
- Abstract要約: W2S-AlignTreeは、プラグアンドプレイの推論時間アライメントフレームワークである。
モンテカルロ木探索(MCTS)とWak-to-Strong Generalizationパラダイムを初めて組み合わせている。
パラメータを変更することなく、強力なモデル生成時のきめ細かいガイダンスを可能にする。
- 参考スコア(独自算出の注目度): 12.140738410354984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate impressive capabilities, yet their outputs often suffer from misalignment with human preferences due to the inadequacy of weak supervision and a lack of fine-grained control. Training-time alignment methods like Reinforcement Learning from Human Feedback (RLHF) face prohibitive costs in expert supervision and inherent scalability limitations, offering limited dynamic control during inference. Consequently, there is an urgent need for scalable and adaptable alignment mechanisms. To address this, we propose W2S-AlignTree, a pioneering plug-and-play inference-time alignment framework that synergistically combines Monte Carlo Tree Search (MCTS) with the Weak-to-Strong Generalization paradigm for the first time. W2S-AlignTree formulates LLM alignment as an optimal heuristic search problem within a generative search tree. By leveraging weak model's real-time, step-level signals as alignment proxies and introducing an Entropy-Aware exploration mechanism, W2S-AlignTree enables fine-grained guidance during strong model's generation without modifying its parameters. The approach dynamically balances exploration and exploitation in high-dimensional generation search trees. Experiments across controlled sentiment generation, summarization, and instruction-following show that W2S-AlignTree consistently outperforms strong baselines. Notably, W2S-AlignTree raises the performance of Llama3-8B from 1.89 to 2.19, a relative improvement of 15.9 on the summarization task.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を示すが、その出力は、弱い監督の欠如ときめ細かな制御の欠如により、人間の好みとの不一致に悩まされることが多い。
Reinforcement Learning from Human Feedback (RLHF)のようなトレーニング時間アライメント手法は、専門家の監督と固有のスケーラビリティの制限において禁止的なコストに直面し、推論中に制限された動的制御を提供する。
したがって、スケーラブルで適応可能なアライメントメカニズムが緊急に必要である。
W2S-AlignTreeは,モンテカルロ木探索(MCTS)とWak-to-Strong一般化パラダイムを相乗的に組み合わせた,先駆的なプラグアンドプレイ推論時アライメントフレームワークである。
W2S-AlignTreeは、生成探索木内の最適ヒューリスティック探索問題としてLLMアライメントを定式化する。
弱いモデルのリアルタイムステップレベルの信号をアライメントプロキシとして利用し、エントロピー・アウェア探索機構を導入することで、W2S-AlignTreeはパラメータを変更することなく、強力なモデル生成時のきめ細かいガイダンスを可能にする。
このアプローチは、高次元の世代探索木における探索と利用を動的にバランスさせる。
W2S-AlignTreeは、制御された感情生成、要約、命令追従の実験により、強いベースラインを一貫して上回ることを示した。
特に、W2S-AlignTreeは、Llama3-8Bの性能を1.89から2.19に引き上げている。
関連論文リスト
- Spend Search Where It Pays: Value-Guided Structured Sampling and Optimization for Generative Recommendation [16.991391135071513]
本稿では,価値誘導型サンプリングおよびツリー構造化アドバンテージ強化フレームワークであるV-STARを提案する。
V-STARは2つの相乗的成分を介して自己進化ループを形成する。まず、決定ノードを識別し、高次接頭辞を選択的に深めるために価値誘導効率復号法(VED)を開発する。
第2に、誘導木トポロジーを利用して兄弟関係の利点を計算し、決定的な分岐決定に学習信号に集中するシブリング-GRPOを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:57:36Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - Controllable Graph Generation with Diffusion Models via Inference-Time Tree Search Guidance [36.29334590991777]
グラフ生成は、Webスケールシステム、知識グラフ、薬物や物質発見などの科学領域にまたがる幅広い応用によるグラフ学習の基本的な問題である。
最近のアプローチでは、ステップバイステップの生成に拡散モデルを活用するが、非条件拡散は望ましい性質をほとんど制御せず、しばしば不安定な品質と新しい目的を取り入れることの難しさをもたらす。
推論時間誘導法は、再トレーニングせずにサンプリングプロセスを調整することでこれらの問題を緩和するが、それらは本質的に局所的であり、制御性に制限される。
本稿では,モンテカルロ木探索 (MCTS) で誘導される,制御可能なグラフ生成のための二空間拡散フレームワークであるTreeDiffを提案する。
論文 参考訳(メタデータ) (2025-10-12T01:40:33Z) - Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T03:29:18Z) - Dynamic-TreeRPO: Breaking the Independent Trajectory Bottleneck with Structured Sampling [14.415169190908676]
本研究では,木構造による雑音強度の深さに沿って,スライディング・ウインドウ・サンプリング・ストラテジーを実装したDynamic-TreeRPOを提案する。
木層ごとによく設計されたノイズ強度により、Dynamic-TreeRPOは余分な計算コストを伴わずに探索のばらつきを高めることができる。
論文 参考訳(メタデータ) (2025-09-27T14:59:31Z) - Tree Search for LLM Agent Reinforcement Learning [23.7084695563981]
Tree-based Group Relative Policy Optimization (Tree-GRPO) は、木探索に基づくグループ化エージェントRL法である。
共通のプレフィックスを共有することで、ツリー検索サンプリングは、達成可能なロールアウトの数を増やす。
木レベルでの相対的政策最適化の目的は、ステップレベルの直接選好学習と同等であることを示す。
論文 参考訳(メタデータ) (2025-09-25T14:37:09Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Weak-to-Strong Generalization with Failure Trajectories: A Tree-based Approach to Elicit Optimal Policy in Strong Models [26.393123295267642]
W2SG(Wak-to-Strong generalization)は、弱いモデルから監督された強いモデルの完全な能力を引き出す新しい傾向である。
我々は、弱いモデルによって生成された中間作用の軌跡を持つ強いモデルを微調整する。
我々の経験的評価は、多種多様なタスク領域にわたる推論と意思決定能力を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-07-25T00:17:09Z) - Dynamic Parallel Tree Search for Efficient LLM Reasoning [102.16694475391665]
Tree of Thoughts (ToT) は大規模言語モデル(LLM)推論を強化し、分散木としての問題解決を構造化する。
推論における推論経路を動的に最適化することを目的とした,新しい並列化フレームワークであるDynamic Parallel Tree Search (DPTS)を提案する。
Qwen-2.5とLlama-3のMath500とGSM8Kデータセットによる実験では、DPTSは平均で2-4倍効率が向上した。
論文 参考訳(メタデータ) (2025-02-22T14:13:37Z) - Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
本手法は,木構造化プロセスとしてデノナイジングを再認識し,部分的にデノナイジングした計画を反復的に評価し,刈り取り,精錬する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Analysing the Behaviour of Tree-Based Neural Networks in Regression Tasks [3.912345988363511]
本稿では、回帰課題の文脈において、木に基づくニューラルネットワークモデルの振る舞いを復号化するための取り組みを行う。
我々は,ツリーベースのCNN,Code2Vec,Transformerベースのメソッドといった確立されたモデルの応用を拡張し,ASTに解析することでソースコードの実行時間を予測する。
提案するデュアルトランスは,多様なデータセットにまたがる顕著な適応性とロバストな性能を示す。
論文 参考訳(メタデータ) (2024-06-17T11:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。