Fugu-MT 論文翻訳(概要): Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

論文の概要: Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2406.12050v1
Date: Mon, 17 Jun 2024 19:42:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 23:57:20.085375
Title: Learn Beyond The Answer: Training Language Models with Reflection for Mathematical Reasoning
Title（参考訳）: 回答を超えて学ぶ:数学的推論のためのリフレクションを用いた言語モデルの訓練
Authors: Zhihan Zhang, Zhenwen Liang, Wenhao Yu, Dian Yu, Mengzhao Jia, Dong Yu, Meng Jiang,
Abstract要約: 教師付き微調整により、様々な数学的推論タスクにおける言語モデルの問題解決能力が向上する。本研究は,手前のトレーニング問題をより深く理解することを目的とした,新しい技術を紹介する。本稿では,各トレーニングインスタンスに問題反映を埋め込む手法であるリフレクティブ拡張を提案する。
参考スコア（独自算出の注目度）: 48.923678251844194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Supervised fine-tuning enhances the problem-solving abilities of language models across various mathematical reasoning tasks. To maximize such benefits, existing research focuses on broadening the training set with various data augmentation techniques, which is effective for standard single-round question-answering settings. Our work introduces a novel technique aimed at cultivating a deeper understanding of the training problems at hand, enhancing performance not only in standard settings but also in more complex scenarios that require reflective thinking. Specifically, we propose reflective augmentation, a method that embeds problem reflection into each training instance. It trains the model to consider alternative perspectives and engage with abstractions and analogies, thereby fostering a thorough comprehension through reflective reasoning. Extensive experiments validate the achievement of our aim, underscoring the unique advantages of our method and its complementary nature relative to existing augmentation techniques.
Abstract（参考訳）: 教師付き微調整により、様々な数学的推論タスクにおける言語モデルの問題解決能力が向上する。このような利点を最大化するために、既存の研究は、標準的な単ラウンド質問応答設定に有効である様々なデータ拡張手法でトレーニングセットを拡張することに焦点を当てている。我々の研究は,目前にあるトレーニング問題を深く理解し,標準設定だけでなく,反射的思考を必要とするより複雑なシナリオでもパフォーマンスを向上させることを目的とした,新しい手法を導入している。具体的には,各トレーニングインスタンスに問題リフレクションを埋め込む手法であるリフレクティブ拡張を提案する。モデルに代替的な視点を考慮させ、抽象論やアナロジーに関わり、反射的推論を通じて完全な理解を促進するよう訓練する。本手法の特長と既存拡張技術に対する相補的特性を概説し, 目的達成の実証実験を行った。

関連論文リスト

Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning [54.9540824532312]
ウィーバー(Weaver)は、エンドツーエンドのトレーニング可能なマルチモーダル推論エージェントシステムである。 Weaverは複数の複雑なビデオ推論ベンチマークのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2026-02-05T16:19:41Z)
What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models [31.62165580395724]
大規模言語モデル(LLM)は、幅広い推論タスクで顕著なパフォーマンスを示している。適応エントロピーポリシー最適化(AEPO)と呼ばれる新しい強化学習手法を提案する。
論文参考訳（メタデータ） (2025-11-09T13:33:46Z)
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文参考訳（メタデータ） (2025-06-11T17:41:50Z)
LLM Reasoning Engine: Specialized Training for Enhanced Mathematical Reasoning [7.512199306943756]
数学的推論タスクにおける大規模言語モデルの能力を高めるための新しい手法を提案する。このギャップを埋める必要性に感銘を受け、私たちのアプローチには質問パラフレーズ戦略が組み込まれています。モデルの学習プロセスを導くために専門的な訓練目的が使われています。
論文参考訳（メタデータ） (2024-12-28T17:48:33Z)
Learning-to-Defer for Extractive Question Answering [3.6787328174619254]
質問応答の文脈で言語モデルを再訓練することなく、人間の専門家や大規模モデルへの選択的推論を可能にすることにより、意思決定を強化する2段階の学習・判断機構を適応的に導入する。その結果,最小限のクエリを遅延させることで,計算効率を保ちながら,より大規模なクエリに匹敵する性能を実現することができた。
論文参考訳（メタデータ） (2024-10-21T08:21:00Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Inference Optimizations for Large Language Models: Effects, Challenges, and Practical Considerations [0.0]
大規模な言語モデルは自然言語処理においてユビキタスである。本稿では,資源要件の低減と大規模言語モデルの圧縮に関する諸技術について概説する。
論文参考訳（メタデータ） (2024-08-06T12:07:32Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Deep Generative Models for Decision-Making and Control [4.238809918521607]
この論文の2つの目的は、これらの欠点の理由を研究し、未解決問題に対する解決策を提案することである。本稿では、ビームサーチを含む現代の生成モデリングツールボックスからの推論手法を、強化学習問題のための実行可能な計画戦略として再解釈する方法について述べる。
論文参考訳（メタデータ） (2023-06-15T01:54:30Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文参考訳（メタデータ） (2020-09-10T14:16:58Z)
A Competence-aware Curriculum for Visual Concepts Learning via Question Answering [95.35905804211698]
本稿では,視覚概念学習のための質問応答型カリキュラムを提案する。視覚概念を学習するためのニューラルシンボリックな概念学習者と学習プロセスを導くための多次元項目応答理論(mIRT)モデルを設計する。 CLEVRの実験結果から,コンピテンスを意識したカリキュラムにより,提案手法は最先端のパフォーマンスを実現することが示された。
論文参考訳（メタデータ） (2020-07-03T05:08:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。