Fugu-MT 論文翻訳(概要): Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

論文の概要: Dual Instruction Tuning with Large Language Models for Mathematical Reasoning

arxiv url: http://arxiv.org/abs/2403.18295v1
Date: Wed, 27 Mar 2024 06:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 18:06:46.061002
Title: Dual Instruction Tuning with Large Language Models for Mathematical Reasoning
Title（参考訳）: 数学的推論のための大規模言語モデルを用いたデュアルインストラクションチューニング
Authors: Yongwei Zhou, Tiejun Zhao,
Abstract要約: 本稿では,前方方向と逆方向の両方から数学的推論をモデル化するための二重命令チューニング手法を提案する。これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。
参考スコア（独自算出の注目度）: 26.00472810721806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements highlight the success of instruction tuning with large language models (LLMs) utilizing Chain-of-Thought (CoT) data for mathematical reasoning tasks. Despite the fine-tuned LLMs, challenges persist, such as incorrect, missing, and redundant steps in CoT generation leading to inaccuracies in answer predictions. To alleviate this problem, we propose a dual instruction tuning strategy to meticulously model mathematical reasoning from both forward and reverse directions. This involves introducing the Intermediate Reasoning State Prediction task (forward reasoning) and the Instruction Reconstruction task (reverse reasoning) to enhance the LLMs' understanding and execution of instructions. Training instances for these tasks are constructed based on existing mathematical instruction tuning datasets. Subsequently, LLMs undergo multi-task fine-tuning using both existing mathematical instructions and the newly created data. Comprehensive experiments validate the effectiveness and domain generalization of the dual instruction tuning strategy across various mathematical reasoning tasks.
Abstract（参考訳）: 近年の進歩は、Chain-of-Thought(CoT)データを利用した大規模言語モデル(LLM)による命令チューニングの成功を強調している。微調整のLLMにもかかわらず、CoT生成の誤り、欠落、冗長なステップといった課題が続き、回答予測の不正確さにつながった。この問題を軽減するために,前方方向と逆方向の両方から数学的推論を正確にモデル化する2つの命令チューニング戦略を提案する。これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。これらのタスクのトレーニングインスタンスは、既存の数学的インストラクションチューニングデータセットに基づいて構築される。その後、LLMは既存の数学的命令と新たに作成されたデータの両方を用いてマルチタスクの微調整を行う。総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。

関連論文リスト

Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models [44.17697803306198]
textitCodeSeqは,数列から構築した合成後トレーニングデータセットである。パイプラインは、失敗したテストケースを反映し、反復的な修正を取り入れることで、教師付き微妙なデータを生成する。実験の結果,textitCodeSeqでトレーニングしたモデルでは,様々な推論タスクが改善され,OOD性能が保たれることがわかった。
論文参考訳（メタデータ） (2025-10-16T12:29:40Z)
The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
System-2 Mathematical Reasoning via Enriched Instruction Tuning [13.672967091915181]
Enriched Instruction Tuning (EIT) は、人間とAIのフィードバックを相乗化することによって、既存の人間の注釈付き数学的データセットを充実させる手法である。 EITはGSM8Kで84.1%、MATHで32.5%の精度を達成し、最先端の微調整およびプロンプト法を超越している。
論文参考訳（メタデータ） (2024-12-22T10:49:27Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
SwitchCIT: Switching for Continual Instruction Tuning of Large Language Models [14.085371250265224]
大規模言語モデル(LLM)は、様々な領域、特に一般的な言語理解において印象的な能力を発揮している。しかし、これらのモデルは大量のテキストデータに基づいて訓練されており、命令によって引き起こされる特定のタスクに対して微妙に最適化されていないかもしれない。本研究は, LLMの連続的な命令学習において, パラメータ効率の高いチューニングモデルに演算をルーティングする切替機構を通じて, 破滅的な忘れに対処するものである。
論文参考訳（メタデータ） (2024-07-16T14:37:33Z)
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-05-30T07:54:07Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
From Large to Tiny: Distilling and Refining Mathematical Expertise for Math Word Problems with Weakly Supervision [12.023661884821554]
本稿では,大規模言語モデルから小型言語モデルへの数学的知識の伝達を徹底的に行う,革新的な2段階のフレームワークを提案する。提案手法は,探索型'確率方程式'ペアにおける意味理解機能を完全に活用する。 Math23KとWeak12Kデータセットでは、既存の小さなモデルメソッドと比較して大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-03-21T13:29:54Z)
CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。 CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文参考訳（メタデータ） (2024-03-13T08:54:31Z)
Continual Instruction Tuning for Large Multimodal Models [30.438442723421556]
マルチタスク・ジョイント・インストラクション・チューニングはモデルの連続的な学習能力と忘れ忘れを促進させる。 LMMの連続的命令チューニングのためのタスク類似性インフォームド正規化とモデル拡張法を提案する。
論文参考訳（メタデータ） (2023-11-27T15:04:48Z)
JiuZhang 2.0: A Unified Chinese Pre-trained Language Model for Multi-task Mathematical Problem Solving [77.51817534090789]
マルチタスク数学問題の解法を専門とする統一中国語 PLM である textbfJiuZhang2.0 を提案する。我々の考えは、中規模のモデルを維持し、マルチタスク設定におけるモデル容量を改善するために、Emphcross-taskの知識共有を利用することである。
論文参考訳（メタデータ） (2023-06-19T15:45:36Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Cross-Task Consistency Learning Framework for Multi-Task Learning [9.991706230252708]
2タスクMTL問題に対する新しい学習フレームワークを提案する。サイクル一貫性損失とコントラスト学習に着想を得た2つの新たな損失項を定義する。理論的には、どちらの損失もモデルをより効率的に学習する助けとなり、直進予測と整合する点において、クロスタスクの整合性損失がより良いことを証明している。
論文参考訳（メタデータ） (2021-11-28T11:55:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。