論文の概要: Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2406.12050v3
- Date: Sat, 05 Oct 2024 21:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:39:45.114974
- Title: Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning
- Title(参考訳): 回答を超えて学ぶ:数学的推論のためのリフレクションを用いた言語モデルの訓練
- Authors: Zhihan Zhang, Tao Ge, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia, Dong Yu, Meng Jiang,
- Abstract要約: 教師付き微調整により、様々な数学的推論タスクにおける言語モデルの問題解決能力が向上する。
本研究は,手前のトレーニング問題をより深く理解することを目的とした,新しい技術を紹介する。
本稿では,各トレーニングインスタンスに問題反映を埋め込む手法であるリフレクティブ拡張を提案する。
- 参考スコア(独自算出の注目度): 59.98430756337374
- License:
- Abstract: Supervised fine-tuning enhances the problem-solving abilities of language models across various mathematical reasoning tasks. To maximize such benefits, existing research focuses on broadening the training set with various data augmentation techniques, which is effective for standard single-round question-answering settings. Our work introduces a novel technique aimed at cultivating a deeper understanding of the training problems at hand, enhancing performance not only in standard settings but also in more complex scenarios that require reflective thinking. Specifically, we propose reflective augmentation, a method that embeds problem reflection into each training instance. It trains the model to consider alternative perspectives and engage with abstractions and analogies, thereby fostering a thorough comprehension through reflective reasoning. Extensive experiments validate the achievement of our aim, underscoring the unique advantages of our method and its complementary nature relative to existing augmentation techniques.
- Abstract(参考訳): 教師付き微調整により、様々な数学的推論タスクにおける言語モデルの問題解決能力が向上する。
このような利点を最大化するために、既存の研究は、標準的な単ラウンド質問応答設定に有効である様々なデータ拡張手法でトレーニングセットを拡張することに焦点を当てている。
我々の研究は,目前にあるトレーニング問題を深く理解し,標準設定だけでなく,反射的思考を必要とするより複雑なシナリオでもパフォーマンスを向上させることを目的とした,新しい手法を導入している。
具体的には,各トレーニングインスタンスに問題リフレクションを埋め込む手法であるリフレクティブ拡張を提案する。
モデルに代替的な視点を考慮させ、抽象論やアナロジーに関わり、反射的推論を通じて完全な理解を促進するよう訓練する。
本手法の特長と既存拡張技術に対する相補的特性を概説し, 目的達成の実証実験を行った。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
トレーニングすべき優れたタスクを体系的に選択する方法を示し、さまざまなタスクにおける全体的なパフォーマンスを最大化する。
このアプローチの背後にある主要なアイデアは、トレーニングされたモデルを転送することで生じるパフォーマンス損失を明示的にモデル化することです。
都市交通と標準制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Inference Optimizations for Large Language Models: Effects, Challenges, and Practical Considerations [0.0]
大規模な言語モデルは自然言語処理においてユビキタスである。
本稿では,資源要件の低減と大規模言語モデルの圧縮に関する諸技術について概説する。
論文 参考訳(メタデータ) (2024-08-06T12:07:32Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Deep Generative Models for Decision-Making and Control [4.238809918521607]
この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。
本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
論文 参考訳(メタデータ) (2023-06-15T01:54:30Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - A Competence-aware Curriculum for Visual Concepts Learning via Question
Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。
視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。
CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2020-07-03T05:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。