Fugu-MT 論文翻訳(概要): Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance

論文の概要: Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance

arxiv url: http://arxiv.org/abs/2410.02992v1
Date: Thu, 3 Oct 2024 21:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 04:35:40.334622
Title: Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance
Title（参考訳）: Guided Stream of Search: 最適経路誘導による言語モデルによるより良い検索の学習
Authors: Seungyong Moon, Bumsoo Park, Hyun Oh Song,
Abstract要約: 言語モデルの探索と計画能力を高めるために最適な解をいかに活用するかを示す。提案手法は,単純な数学的推論タスクであるCountdownにおける言語モデルの探索と計画能力を大幅に向上させる。
参考スコア（独自算出の注目度）: 17.28280896937486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While language models have demonstrated impressive capabilities across a range of tasks, they still struggle with tasks that require complex planning and reasoning. Recent studies have proposed training language models on search processes rather than optimal solutions, resulting in better generalization performance even though search processes are noisy and even suboptimal. However, these studies overlook the value of optimal solutions, which can serve as step-by-step landmarks to guide more effective search. In this work, we explore how to leverage optimal solutions to enhance the search and planning abilities of language models. To this end, we propose guided stream of search (GSoS), which seamlessly incorporates optimal solutions into the self-generation process in a progressive manner, producing high-quality search trajectories. These trajectories are then distilled into the pre-trained model via supervised fine-tuning. Our approach significantly enhances the search and planning abilities of language models on Countdown, a simple yet challenging mathematical reasoning task. Notably, combining our method with RL fine-tuning yields further improvements, whereas previous supervised fine-tuning methods do not benefit from RL. Furthermore, our approach exhibits greater effectiveness than leveraging optimal solutions in the form of subgoal rewards.
Abstract（参考訳）: 言語モデルは様々なタスクで印象的な能力を示してきたが、複雑な計画と推論を必要とするタスクには依然として苦労している。近年の研究では,探索過程が雑音や準最適であっても,最適解ではなく探索過程の学習言語モデルが提案されており,より一般化性能が向上している。しかし、これらの研究は、より効果的な探索を導くためにステップバイステップのランドマークとして機能する最適解の価値を見落としている。本研究では,言語モデルの探索と計画能力を高めるために最適解を活用する方法について検討する。そこで本研究では,最適解を段階的に自己生成プロセスにシームレスに組み込み,高品質な探索トラジェクトリを生成するためのガイド付き探索ストリーム(GSoS)を提案する。これらの軌道は、教師付き微調整により事前訓練されたモデルに蒸留される。提案手法は,単純な数学的推論タスクであるCountdownにおける言語モデルの探索と計画能力を大幅に向上させる。特に,本手法とRL微調整法を組み合わせることでさらなる改善が期待できるが,従来の教師付き微調整法はRLの恩恵を受けない。さらに,本手法は,最適解をサブゴール報酬の形で活用するよりも有効性が高い。

関連論文リスト

Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Offline Learning and Forgetting for Reasoning with Large Language Models [23.384882158333156]
本稿では,未完成かつ失敗に終わった推論経路を微調整することで,検索機能をモデルに直接統合する効果的な手法を提案する。挑戦的なGame-of-24とCountdown推論ベンチマークの実験では、CoT生成データをオフラインの微調整のために検索生成データに置き換えることで、推論時検索ベースラインよりも約23%成功率を向上させることが示されている。私たちの学習と忘れは、教師付き微調整と嗜好に基づく方法の両方で一貫して優れています。
論文参考訳（メタデータ） (2025-04-15T16:30:02Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文参考訳（メタデータ） (2025-03-13T15:49:56Z)
Automatic Prompt Optimization via Heuristic Search: A Survey [13.332569343755075]
大規模言語モデルは、様々な自然言語処理タスクにおいて顕著な成果をもたらしています。手動の手法は効果的であるが、通常は直感に頼り、時間とともに自動的にプロンプトを洗練しない。検索アルゴリズムを用いた自動プロンプト最適化は、人間の監視を最小限に抑えて、システマティックにプロンプトを探索し改善することができる。
論文参考訳（メタデータ） (2025-02-26T01:42:08Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-07T19:52:14Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-11T14:59:18Z)
PathFinder: Guided Search over Multi-Step Reasoning Paths [80.56102301441899]
木探索に基づく推論経路生成手法であるPathFinderを提案する。動的デコードの統合により、多様な分岐とマルチホップ推論を強化する。我々のモデルは、大きな分岐因子を持つビームサーチに類似した複雑さを反映して、よく、長く、目に見えない推論連鎖を一般化する。
論文参考訳（メタデータ） (2023-12-08T17:05:47Z)
Let's reward step by step: Step-Level reward model as the Navigators for Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。 LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文参考訳（メタデータ） (2023-10-16T05:21:50Z)
Online Control of Adaptive Large Neighborhood Search using Deep Reinforcement Learning [4.374837991804085]
DR-ALNSと呼ばれる深層強化学習に基づくアプローチを導入し、演算子を選択し、パラメータを調整し、検索全体を通して受け入れ基準を制御する。提案手法は,IJCAIコンペティションで提示されたオリエンテーリングウェイトと時間窓の問題に対して評価する。その結果,本手法はバニラALNSよりも優れており,ALNSはベイジアン最適化と2つの最先端DRLアプローチに適合していることがわかった。
論文参考訳（メタデータ） (2022-11-01T21:33:46Z)
Do Current Multi-Task Optimization Methods in Deep Learning Even Help? [35.27168056803643]
これらのアルゴリズムの設計と計算の複雑さが加わったにも拘わらず、MTO法は従来の最適化手法によって達成可能な以上の性能改善を行なわないことを示す。パフォーマンスプロファイルを継続的に改善する代替戦略を強調し、最適な結果をもたらす可能性のある一般的なトレーニング落とし穴を指摘する。
論文参考訳（メタデータ） (2022-09-23T02:45:13Z)
Sample-Efficient, Exploration-Based Policy Optimisation for Routing Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。我々のモデルは様々な経路問題に一般化可能であることを示す。
論文参考訳（メタデータ） (2022-05-31T09:51:48Z)
Efficient Active Search for Combinatorial Optimization Problems [1.6543719822033436]
能動探索により、学習したモデルが、トレーニング中に見られたものよりもはるかに大きいインスタンスを効果的に解決できることが示される。提案手法は、与えられたモデルの探索性能を大幅に向上する簡単な方法を提供し、ルーティング問題に対する最先端の機械学習手法より優れている。
論文参考訳（メタデータ） (2021-06-09T15:08:03Z)
Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文参考訳（メタデータ） (2020-10-12T17:26:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。