Fugu-MT 論文翻訳(概要): Patience Is The Key to Large Language Model Reasoning

論文の概要: Patience Is The Key to Large Language Model Reasoning

arxiv url: http://arxiv.org/abs/2411.13082v2
Date: Tue, 26 Nov 2024 10:57:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.390997
Title: Patience Is The Key to Large Language Model Reasoning
Title（参考訳）: 大規模言語モデル推論の鍵は愛国心にある
Authors: Yijiong Yu,
Abstract要約: そこで我々は,モデルに患者推論スタイルを採用することを奨励する簡単な方法を提案する。我々は、肯定的な例として詳細な推論プロセス、否定的な例として単純な回答を生成し、その結果、その反応の完全性を支持するようにモデルを訓練する。この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大6.7%向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in the field of large language models, particularly through the Chain of Thought (CoT) approach, have demonstrated significant improvements in solving complex problems. However, existing models either tend to sacrifice detailed reasoning for brevity due to user preferences, or require extensive and expensive training data to learn complicated reasoning ability, limiting their potential in solving complex tasks. To bridge this gap, following the concept of scaling test-time, we propose a simple method by encouraging models to adopt a more patient reasoning style without the need of introducing new knowledge or skills. To employ a preference optimization approach, we generate detailed reasoning processes as positive examples and simple answers as negative examples, thereby training the model to favor thoroughness in its responses. Our results demonstrate a performance increase of up to 6.7% on GSM8k with training just on a lightweight dataset.
Abstract（参考訳）: 大規模言語モデル,特にCoT(Chain of Thought)アプローチによる最近の進歩は,複雑な問題の解決において著しく改善されている。しかし、既存のモデルは、ユーザの好みによる簡潔さの詳細な推論を犠牲にするか、複雑な推論能力を学ぶために、広範囲で高価なトレーニングデータを必要とし、複雑なタスクを解く可能性を制限する傾向にある。このギャップを埋めるために、テストタイムのスケーリングという概念に倣って、新しい知識やスキルを導入することなく、モデルにより多くの患者推論スタイルを採用することを奨励する簡単な方法を提案する。選好最適化手法を用いることで, 肯定的な例として詳細な推論プロセス, 否定的な例として単純な回答を生成し, 反応の完全性を向上させるためにモデルを訓練する。この結果から,軽量データセット上でのトレーニングにより,GSM8kのパフォーマンスは最大6.7%向上した。

関連論文リスト

Bidirectional Curriculum Generation: A Multi-Agent Framework for Data-Efficient Mathematical Reasoning [16.95900718416944]
各トレーニングサンプルの教育的価値を最大化するために,新しい双方向カリキュラム生成フレームワークを導入する。剛性軌道とは異なり、我々のマルチエージェントエコシステムは適応的な教育を模倣し、閉じたフィードバックループを確立する。このメカニズムは、モデルが任意の段階で最も効果的なデータのみを消費することを保証します。
論文参考訳（メタデータ） (2026-03-05T12:49:21Z)
Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models [46.50839982051244]
本研究は、汎用予測型プロンプト選択(GPS)を紹介する。 GPSは、共有最適化履歴に基づいて訓練された軽量な生成モデルを用いて、迅速にベイズ推定を行う。様々な推論ベンチマークによる実験は、GPSがトレーニング効率、最終性能、テストタイム効率を大幅に改善したことを示している。
論文参考訳（メタデータ） (2026-02-02T11:24:36Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は指示の順守に寄与する主要な要因だ本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文参考訳（メタデータ） (2025-08-05T07:42:00Z)
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文参考訳（メタデータ） (2025-05-19T15:43:10Z)
Teaching Large Language Models to Reason through Learning and Forgetting [23.384882158333156]
大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するために有効であることが証明されている。このアプローチは計算コストと推論時間を大幅に向上させる。本稿では,検索機能を直接モデルに組み込むための効果的な手法を提案する。
論文参考訳（メタデータ） (2025-04-15T16:30:02Z)
Training Language Models to Reason Efficiently [14.390800014819439]
我々は、強化学習を用いて、大きな推論モデルを訓練し、効率的に推論する。精度を維持しながら不要な計算オーバーヘッドを最小限に抑えるため,本手法はモデルにインセンティブを与える。 2つのオープンウェイトな大推論モデルに対する実験は、ほとんどの精度を保ちながら、推論コストを著しく削減することを示した。
論文参考訳（メタデータ） (2025-02-06T19:18:16Z)
Context-Aware Multimodal Pretraining [72.04020920042574]
視覚言語モデルをトレーニングすることで,数ショット適応を著しく向上させることができることを示す。テストタイムのサンプル効率は最大で4倍改善され、平均的な数ショット適応率は5%以上向上した。
論文参考訳（メタデータ） (2024-11-22T17:55:39Z)
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文参考訳（メタデータ） (2024-10-24T12:42:04Z)
Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
Self-training Language Models for Arithmetic Reasoning [0.0]
我々は、新しいデータなしでモデルの推論能力を改善する可能性を探る。モデルは単一ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善できることがわかった。
論文参考訳（メタデータ） (2024-07-11T11:06:05Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文参考訳（メタデータ） (2023-08-15T17:59:18Z)
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions [6.9076450524134145]
多様な推論能力を具現化するために,最大93タスクのマルチタスク事前学習の組み合わせを提案する。検索強化トレーニングデータセットを追加することにより,性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-08-02T05:00:12Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
HyperImpute: Generalized Iterative Imputation with Automatic Model Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文参考訳（メタデータ） (2022-06-15T19:10:35Z)
Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文参考訳（メタデータ） (2022-06-08T14:48:06Z)
Building Accurate Simple Models with Multihop [13.182955266765653]
本稿では,複雑なモデルから単純なモデルへ情報を伝達するメタアプローチを提案する。提案手法では, 前述した手法のいずれかを用いて, 連続したモデル間で情報を伝達することができる。実データに関する実験では、1ホップ以上のモデルの異なる選択に対して一貫した利得が得られることが観察された。
論文参考訳（メタデータ） (2021-09-14T20:39:11Z)
Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文参考訳（メタデータ） (2021-08-13T04:21:21Z)
End-to-end Neural Coreference Resolution Revisited: A Simple yet Effective Baseline [20.431647446999996]
本稿では、コア参照解決のための単純で効果的なベースラインを提案する。我々のモデルは、オリジナルのニューラルコア参照解決モデルの簡易版である。我々の研究は、既存のモデルや新しく提案されたモデルの複雑さを慎重に正当化する必要性を示す証拠を提供する。
論文参考訳（メタデータ） (2021-07-04T18:12:24Z)
Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。 Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文参考訳（メタデータ） (2020-09-19T02:41:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。