論文の概要: Teaching Large Language Models to Reason through Learning and Forgetting
- arxiv url: http://arxiv.org/abs/2504.11364v1
- Date: Tue, 15 Apr 2025 16:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:16.742278
- Title: Teaching Large Language Models to Reason through Learning and Forgetting
- Title(参考訳): 学習と学習を通して大言語モデルに推論を教える
- Authors: Tianwei Ni, Allen Nie, Sapana Chaudhary, Yao Liu, Huzefa Rangwala, Rasool Fakoor,
- Abstract要約: 大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するために有効であることが証明されている。
このアプローチは計算コストと推論時間を大幅に向上させる。
本稿では,検索機能を直接モデルに組み込むための効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 23.384882158333156
- License:
- Abstract: Leveraging inference-time search in large language models has proven effective in further enhancing a trained model's capability to solve complex mathematical and reasoning problems. However, this approach significantly increases computational costs and inference time, as the model must generate and evaluate multiple candidate solutions to identify a viable reasoning path. To address this, we propose an effective approach that integrates search capabilities directly into the model by fine-tuning it using both successful (learning) and failed reasoning paths (forgetting) derived from diverse search methods. While fine-tuning the model with these data might seem straightforward, we identify a critical issue: the model's search capability tends to degrade rapidly if fine-tuning is performed naively. We show that this degradation can be substantially mitigated by employing a smaller learning rate. Extensive experiments on the challenging Game-of-24 and Countdown mathematical reasoning benchmarks show that our approach not only outperforms both standard fine-tuning and inference-time search baselines but also significantly reduces inference time by 180$\times$.
- Abstract(参考訳): 大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するのに有効であることが証明されている。
しかし、この手法は計算コストと推論時間を大幅に向上させるため、モデルが実行可能な推論経路を特定するために複数の候補解を生成し、評価する必要がある。
そこで本研究では,モデルに検索機能を直接組み込むための効果的な手法を提案する。
これらのデータでモデルを微調整することは簡単なように思えるが、重要な問題を特定する。
学習速度を小さくすることで, この劣化を著しく軽減できることを示す。
挑戦的なGame-of-24とCountdownの数学的推論ベンチマークに関する大規模な実験は、我々のアプローチが標準的な微調整と推論時検索のベースラインを上回るだけでなく、推論時間を180$\times$で大幅に削減していることを示している。
関連論文リスト
- Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - Patience Is The Key to Large Language Model Reasoning [0.0]
そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。
我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。
この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大2.1%向上した。
論文 参考訳(メタデータ) (2024-11-20T07:20:48Z) - Provable unlearning in topic modeling and downstream tasks [36.571324268874264]
アンラーニングの保証は、しばしば教師付き学習設定に限られる。
我々は、事前学習と微調整のパラダイムにおいて、初となるアンラーニングの理論的保証を提供する。
我々は、特定のタスクに微調整されたモデルから事前学習データを容易に解放できることを示し、ベースモデルを変更することなく、このデータを解放できることを示した。
論文 参考訳(メタデータ) (2024-11-19T16:04:31Z) - Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems [0.0]
本研究では,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。
本稿では,数理論理の類似性を計測し,自動スクリーニング機構を設計する手法を提案する。
肯定的および否定的な例示プロンプトを慎重に作成することにより、音響推論ロジックの導入に向けてモデルを導出する。
論文 参考訳(メタデータ) (2024-08-29T08:26:42Z) - Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。