論文の概要: Offline Learning and Forgetting for Reasoning with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.11364v3
- Date: Tue, 08 Jul 2025 01:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.052404
- Title: Offline Learning and Forgetting for Reasoning with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたオフライン学習と推論
- Authors: Tianwei Ni, Allen Nie, Sapana Chaudhary, Yao Liu, Huzefa Rangwala, Rasool Fakoor,
- Abstract要約: 本稿では,未完成かつ失敗に終わった推論経路を微調整することで,検索機能をモデルに直接統合する効果的な手法を提案する。
挑戦的なGame-of-24とCountdown推論ベンチマークの実験では、CoT生成データをオフラインの微調整のために検索生成データに置き換えることで、推論時検索ベースラインよりも約23%成功率を向上させることが示されている。
私たちの学習と忘れは、教師付き微調整と嗜好に基づく方法の両方で一貫して優れています。
- 参考スコア(独自算出の注目度): 23.384882158333156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging inference-time search in large language models has proven effective in further enhancing a trained model's capability to solve complex mathematical and reasoning problems. However, this approach significantly increases computational costs and inference time, as the model must generate and evaluate multiple candidate solutions to identify a viable reasoning path. To address this, we propose an effective approach that integrates search capabilities directly into the model by fine-tuning it on unpaired successful (learning) and failed reasoning paths (forgetting) derived from diverse search methods. A key challenge we identify is that naive fine-tuning can degrade the model's search capability; we show this can be mitigated with a smaller learning rate. Extensive experiments on the challenging Game-of-24 and Countdown reasoning benchmarks show that, replacing CoT-generated data with search-generated data for offline fine-tuning improves success rates by around 23% over inference-time search baselines, while reducing inference time by 180$\times$. On top of this, our learning and forgetting objective consistently outperforms both supervised fine-tuning and preference-based methods.
- Abstract(参考訳): 大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するために有効であることが証明されている。
しかし、この手法は計算コストと推論時間を大幅に向上させるため、モデルが実行可能な推論経路を特定するために複数の候補解を生成し、評価する必要がある。
そこで本研究では,未完成の成功(学習)と多種多様な探索手法から導出した推論経路(鍛造)を微調整することで,モデルに直接検索機能を組み込む効果的な手法を提案する。
私たちが認識している重要な課題は、ヌーブな微調整がモデルの検索能力を低下させることであり、より少ない学習率で緩和できることを示しています。
挑戦的なGame-of-24とCountdown推論ベンチマークに関する大規模な実験は、CoT生成データをオフラインの微調整のために検索生成データに置き換えることで、推論時検索ベースラインよりも約23%向上し、推論時間を180$\times$に短縮することを示している。
これに加えて、我々の学習と忘れることの目的は、教師付き微調整と嗜好に基づく方法の両方より一貫して優れています。
関連論文リスト
- Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead [33.011660907969706]
推論時間スケーリングは、大きな言語モデルの推論能力を高めることができる。
本研究では,9つの最先端モデルと8つの課題にまたがるスケーリング手法の利点と限界について検討する。
論文 参考訳(メタデータ) (2025-03-31T23:40:28Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Patience Is The Key to Large Language Model Reasoning [0.0]
そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。
我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。
この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大2.1%向上した。
論文 参考訳(メタデータ) (2024-11-20T07:20:48Z) - Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。