論文の概要: Learning to Better Search with Language Models via Guided Reinforced Self-Training
- arxiv url: http://arxiv.org/abs/2410.02992v2
- Date: Mon, 27 Oct 2025 04:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 22:08:13.685983
- Title: Learning to Better Search with Language Models via Guided Reinforced Self-Training
- Title(参考訳): 指導型自己学習による言語モデルによる検索改善の試み
- Authors: Seungyong Moon, Bumsoo Park, Hyun Oh Song,
- Abstract要約: 本稿では,推論中の効果的な探索能力を向上させるためのガイド付き自己学習(Guided-ReST)を提案する。
Guided-ReSTは最適解をモデルの探索手順に組み込んで、高品質な探索トレースを生成する。
本手法は,算術的推論や自己修復作業における言語モデルの探索能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 15.289058352618468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While language models have shown remarkable performance across diverse tasks, they still encounter challenges in complex reasoning scenarios. Recent research suggests that language models trained on linearized search traces toward solutions, rather than solely on the final solutions, exhibit improved generalization, despite the search traces being potentially noisy or suboptimal. However, relying on such imperfect traces can result in inefficient use of test-time compute. To address this, we propose guided reinforced self-training (Guided-ReST), a fine-tuning algorithm designed to improve the model's capability for effective search during inference. The key insight behind Guided-ReST is that optimal solutions can serve as valuable step-by-step landmarks to guide the model's search process. Based on this insight, we introduce a novel data generation method that seamlessly incorporates optimal solutions into the model's search procedure, enabling the generation of high-quality search traces. By fine-tuning the model on these search traces, we effectively distill improved search strategies into the model. Our method significantly enhances the search capabilities of language models on arithmetic reasoning and code self-repair tasks, including Countdown, CodeContests, and CodeForces. We release the source code at https://github.com/snu-mllab/guided-rest.
- Abstract(参考訳): 言語モデルは様々なタスクで顕著なパフォーマンスを示しているが、複雑な推論シナリオでは依然として課題に直面している。
近年の研究では、最終解のみに限らず、線形化された探索トレースに基づいて訓練された言語モデルでは、探索トレースがノイズや準最適であるにもかかわらず、一般化が改善されていることが示唆されている。
しかし、そのような不完全なトレースに依存すると、テスト時間計算の効率が悪くなる可能性がある。
そこで本研究では,提案手法を改良した改良型自己学習(Guided-ReST)を提案する。
Guided-ReSTの背景にある重要な洞察は、最適なソリューションが、モデルの検索プロセスをガイドする貴重なステップバイステップのランドマークとして機能できるということである。
この知見に基づいて,モデルの探索手順に最適解をシームレスに組み込む新しいデータ生成手法を導入し,高品質な探索トレースを生成する。
これらの探索トレース上でモデルを微調整することにより、改良された探索戦略を効果的にモデルに蒸留する。
提案手法は,算術的推論における言語モデルの探索能力と,Countdown,CodeContests,CodeForcesなどの自己修復タスクを大幅に向上させる。
ソースコードはhttps://github.com/snu-mllab/guided-rest.comで公開しています。
関連論文リスト
- Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。
大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。
統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文 参考訳(メタデータ) (2025-05-13T16:47:00Z) - Offline Learning and Forgetting for Reasoning with Large Language Models [23.384882158333156]
本稿では,未完成かつ失敗に終わった推論経路を微調整することで,検索機能をモデルに直接統合する効果的な手法を提案する。
挑戦的なGame-of-24とCountdown推論ベンチマークの実験では、CoT生成データをオフラインの微調整のために検索生成データに置き換えることで、推論時検索ベースラインよりも約23%成功率を向上させることが示されている。
私たちの学習と忘れは、教師付き微調整と嗜好に基づく方法の両方で一貫して優れています。
論文 参考訳(メタデータ) (2025-04-15T16:30:02Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - Automatic Prompt Optimization via Heuristic Search: A Survey [13.332569343755075]
大規模言語モデルは、様々な自然言語処理タスクにおいて顕著な成果をもたらしています。
手動の手法は効果的であるが、通常は直感に頼り、時間とともに自動的にプロンプトを洗練しない。
検索アルゴリズムを用いた自動プロンプト最適化は、人間の監視を最小限に抑えて、システマティックにプロンプトを探索し改善することができる。
論文 参考訳(メタデータ) (2025-02-26T01:42:08Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。
動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。
我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文 参考訳(メタデータ) (2023-12-08T17:05:47Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。
提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。
その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文 参考訳(メタデータ) (2022-11-01T21:33:46Z) - Do Current Multi-Task Optimization Methods in Deep Learning Even Help? [35.27168056803643]
これらのアルゴリズムの設計と計算の複雑さが加わったにも拘わらず、MTO法は従来の最適化手法によって達成可能な以上の性能改善を行なわないことを示す。
パフォーマンスプロファイルを継続的に改善する代替戦略を強調し、最適な結果をもたらす可能性のある一般的なトレーニング落とし穴を指摘する。
論文 参考訳(メタデータ) (2022-09-23T02:45:13Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - Efficient Active Search for Combinatorial Optimization Problems [1.6543719822033436]
能動探索により、学習したモデルが、トレーニング中に見られたものよりもはるかに大きいインスタンスを効果的に解決できることが示される。
提案手法は、与えられたモデルの探索性能を大幅に向上する簡単な方法を提供し、ルーティング問題に対する最先端の機械学習手法より優れている。
論文 参考訳(メタデータ) (2021-06-09T15:08:03Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。