論文の概要: Patience Is The Key to Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2411.13082v3
- Date: Wed, 04 Dec 2024 07:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:05:15.249256
- Title: Patience Is The Key to Large Language Model Reasoning
- Title(参考訳): 大規模言語モデル推論の鍵は愛国心にある
- Authors: Yijiong Yu,
- Abstract要約: そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。
我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。
この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大2.1%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 2.1% on GSM8k with training just on a lightweight dataset.
- Abstract(参考訳): 大規模言語モデル,特にCoT(Chain of Thought)アプローチによる最近の進歩は,複雑な問題の解決において著しく改善されている。
しかし、既存のモデルは、ユーザの好みによる簡潔さの詳細な推論を犠牲にするか、複雑な推論能力を学ぶために、広範囲で高価なトレーニングデータを必要とし、複雑なタスクを解く可能性を制限する傾向にある。
このギャップを埋めるために、テストタイムのスケーリングという概念に倣って、新しい知識やスキルを導入することなく、モデルにより多くの患者推論スタイルを採用することを奨励する簡単な方法を提案する。
選好最適化手法を用いることで, 肯定的な例として詳細な推論プロセス, 否定的な例として単純な回答を生成し, 反応の完全性を向上させるためにモデルを訓練する。
この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大2.1%向上した。
関連論文リスト
- Iterative Deepening Sampling for Large Language Models [27.807695570974644]
効果的な自己補正と自己補正を実現するためのトレーニングモデルは、依然として重要な課題である。
自己補正の強化と高品質なサンプル生成を目的とした,新しい反復サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。
精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。
2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文 参考訳(メタデータ) (2025-02-06T19:18:16Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Teaching Smaller Language Models To Generalise To Unseen Compositional
Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。
検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-02T05:00:12Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Building Accurate Simple Models with Multihop [13.182955266765653]
本稿では,複雑なモデルから単純なモデルへ情報を伝達するメタアプローチを提案する。
提案手法では, 前述した手法のいずれかを用いて, 連続したモデル間で情報を伝達することができる。
実データに関する実験では、1ホップ以上のモデルの異なる選択に対して一貫した利得が得られることが観察された。
論文 参考訳(メタデータ) (2021-09-14T20:39:11Z) - Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。
このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文 参考訳(メタデータ) (2021-08-13T04:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。