Fugu-MT 論文翻訳(概要): Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems

論文の概要: Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems

arxiv url: http://arxiv.org/abs/2409.00131v1
Date: Thu, 29 Aug 2024 08:26:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 16:50:17.441931
Title: Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems
Title（参考訳）: 数学語問題に対する軽量大言語モデルを用いた論理コントラスト推論
Authors: Ding Kai, Ma Zhenguo, Yan Xiaoran,
Abstract要約: 本研究では,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。本稿では,数理論理の類似性を計測し,自動スクリーニング機構を設計する手法を提案する。肯定的および否定的な例示プロンプトを慎重に作成することにより、音響推論ロジックの導入に向けてモデルを導出する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study focuses on improving the performance of lightweight Large Language Models (LLMs) in mathematical reasoning tasks. We introduce a novel method for measuring mathematical logic similarity and design an automatic screening mechanism to construct a set of reference problems that integrate both semantic and logical similarity. By employing carefully crafted positive and negative example prompts, we guide the model towards adopting sound reasoning logic. To the best of our knowledge, this is the first attempt to utilize retrieval-enhanced generation for mathematical problem-solving. Experimental results demonstrate that our method achieves a 15.8% improvement over the Chain of Thought approach on the SVAMP dataset and a 21.5 % improvement on the GSM8K dataset. Further application of this method to a large-scale model with 175 billion parameters yields performance comparable to the best results on both aforementioned datasets. Finally, we conduct an analysis of errors during the reasoning process, providing valuable insights and directions for future research on reasoning tasks using large language models.
Abstract（参考訳）: 本研究は,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。本稿では,数理論理の類似性を測定する新しい手法を提案し,意味的類似性と論理的類似性の両方を統合する参照問題の集合を構築するための自動スクリーニング機構を設計する。肯定的かつ否定的な事例プロンプトを慎重に作成することにより、我々は、音響推論論理を採用するためのモデルを導出する。我々の知る限りでは、これは数学的問題解決に検索強化生成を利用する最初の試みである。実験の結果,本手法はSVAMPデータセットにおけるChain of Thoughtアプローチよりも15.8%改善し,GSM8Kデータセットでは21.5%改善した。この手法を1750億のパラメータを持つ大規模モデルに適用すると、上記の両方のデータセットの最良の結果に匹敵する性能が得られる。最後に、推論過程における誤りの分析を行い、大規模言語モデルを用いた推論タスクの今後の研究に有用な洞察と方向性を提供する。

関連論文リスト

Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces [2.0789230137053014]
テストタイムのスケーリングにより、複雑な問題から推論できる新しいLarge Language Models(LLM)が実現された。 2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
論文参考訳（メタデータ） (2025-11-24T17:26:58Z)
Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。 ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文参考訳（メタデータ） (2025-10-08T15:58:35Z)
Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。 R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。 MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文参考訳（メタデータ） (2025-07-08T00:41:12Z)
Teaching Large Language Models to Reason through Learning and Forgetting [23.384882158333156]
大規模言語モデルにおける推論時間探索の活用は、複雑な数学的および推論問題を解くための訓練されたモデルの能力をさらに強化するために有効であることが証明されている。このアプローチは計算コストと推論時間を大幅に向上させる。本稿では,検索機能を直接モデルに組み込むための効果的な手法を提案する。
論文参考訳（メタデータ） (2025-04-15T16:30:02Z)
Integrating Arithmetic Learning Improves Mathematical Reasoning in Smaller Models [0.0]
高品質なデータに事前訓練された大規模なモデルは、様々な推論タスクにおいて優れたパフォーマンスを示す。より小さな学生モデルは教師モデルから学び、質問を言い換えるなどのデータ拡張を行う。これらの努力にもかかわらず、より小さなモデルは算術計算に苦慮し、数学的推論の誤りにつながる。
論文参考訳（メタデータ） (2025-02-18T13:43:06Z)
Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:49:35Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文参考訳（メタデータ） (2025-01-19T16:53:26Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Benchmarking Large Language Models for Math Reasoning Tasks [12.91916443702145]
我々は、4つの強力な基礎モデル上の5つの広く使われている数学的データセットの数学的問題解決のための、最先端の文脈内学習アルゴリズムを7つ比較した。以上の結果から, GPT-4o や LLaMA 3-70B のような大規模基盤モデルでは, 具体的なプロンプト戦略とは独立に数学的推論を解くことが可能であることが示唆された。将来の研究で追加モデルの統合をサポートするために、ベンチマークコードをオープンソースにしています。
論文参考訳（メタデータ） (2024-08-20T13:34:17Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
DialCoT Meets PPO: Decomposing and Exploring Reasoning Paths in Smaller Language Models [18.96271708412086]
CoT(Chain-of-Thought)プロンプトは、少なくとも1000億のパラメータを持つLLM(Large Language Models)の推論能力を高めるのに有効であることが証明されている。本稿では,ダイアログ誘導型Chain-of-Thought(DialCoT)について紹介する。
論文参考訳（メタデータ） (2023-10-08T08:52:13Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文参考訳（メタデータ） (2022-10-21T15:12:37Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
Visualizing the Relationship Between Encoded Linguistic Information and Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文参考訳（メタデータ） (2022-03-29T19:03:10Z)
Scaling Language Models: Methods, Analysis & Insights from Training Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文参考訳（メタデータ） (2021-12-08T19:41:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。