Fugu-MT 論文翻訳(概要): Forward-Backward Reasoning in Large Language Models for Mathematical Verification

論文の概要: Forward-Backward Reasoning in Large Language Models for Mathematical Verification

arxiv url: http://arxiv.org/abs/2308.07758v6
Date: Wed, 5 Jun 2024 03:37:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 04:16:10.091812
Title: Forward-Backward Reasoning in Large Language Models for Mathematical Verification
Title（参考訳）: 数学的検証のための大規模言語モデルの前方逆推論
Authors: Weisen Jiang, Han Shi, Longhui Yu, Zhengying Liu, Yu Zhang, Zhenguo Li, James T. Kwok,
Abstract要約: 自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。候補解の検証に後方推論を導入する。検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
参考スコア（独自算出の注目度）: 65.9495774606273
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-Consistency samples diverse reasoning chains with answers and chooses the final answer by majority voting. It is based on forward reasoning and cannot further improve performance by sampling more reasoning chains when saturated. To further boost performance, we introduce backward reasoning to verify candidate answers. Specifically, for mathematical tasks, we mask a number in the question and ask the LLM to answer a backward question created by a simple template, i.e., to predict the masked number when a candidate answer is provided. Instead of using forward or backward reasoning alone, we propose FOBAR to combine FOrward and BAckward Reasoning for verification. Extensive experiments on six standard mathematical data sets and three LLMs show that FOBAR achieves state-of-the-art performance. In particular, FOBAR outperforms Self-Consistency, which uses forward reasoning alone, demonstrating that combining forward and forward reasoning is better. In addition, FOBAR performs better than existing verification methods, showing the effectiveness of the simple template used in backward reasoning and the proposed combination. Extensions to non-mathematical problems are also discussed and validated empirically.
Abstract（参考訳）: 自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。前方推論に基づいており、飽和時により多くの推論鎖をサンプリングすることで、さらなる性能向上はできない。性能をさらに向上するため、候補解の検証に後方推論を導入する。具体的には、数学的なタスクに対して、質問の番号をマスキングし、単純なテンプレートによって作成された後方質問、すなわち、候補回答が提供されたときにマスクされた番号を予測するようLLMに求める。 FORward と BAckward Reasoning を組み合わせて検証する FOBAR を提案する。 6つの標準的な数学的データセットと3つのLCMに関する大規模な実験は、FOBARが最先端のパフォーマンスを達成することを示す。特に、FOBARはフォワード推論のみを使用し、フォワード推論とフォワード推論の組み合わせがより優れていることを示すセルフ一貫性よりも優れています。さらに、FOBARは既存の検証手法よりも優れた性能を示し、後方推論に使用される単純なテンプレートと提案した組み合わせの有効性を示した。非数学的問題への拡張も議論され、実証的に検証される。

関連論文リスト

Revisiting Overthinking in Long Chain-of-Thought from the Perspective of Self-Doubt [74.35891434097053]
RLLM(Reasoning Large Language Models)は、複雑なタスクにおいて素晴らしいパフォーマンスを示す。彼らはしばしば過度に考え、正しい答えに達した後も不必要な推論ステップを実行します。本稿では,自己疑念の観点から,過剰思考を定量的に分析する。本稿では,入力問題に対するモデルの過度信頼度を低減するための,シンプルで効果的なプロンプト手法を提案する。
論文参考訳（メタデータ） (2025-05-29T14:30:02Z)
CounterBench: A Benchmark for Counterfactuals Reasoning in Large Language Models [5.409370027524351]
本研究では, 大規模言語モデル(LLM)の性能評価を行った。我々は,新しいベンチマークデータセットであるCounterBenchを紹介した。
論文参考訳（メタデータ） (2025-02-16T06:19:37Z)
Reverse Thinking Makes LLMs Stronger Reasoners [90.42357659849215]
RevThinkは、データ拡張と学習目的からなるフレームワークである。 12のデータセットに対する実験では、学生モデルのゼロショットのパフォーマンスよりも平均13.53%改善されている。 RevThinkはまた、アウト・オブ・ディストリビューション・ホールドアウトデータセットへの強力な一般化を示している。
論文参考訳（メタデータ） (2024-11-29T17:27:05Z)
Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。このアプローチは、正しい答えが少数派である場合に失敗する。階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文参考訳（メタデータ） (2024-05-21T17:12:19Z)
Premise Order Matters in Reasoning with Large Language Models [57.18850969634412]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文参考訳（メタデータ） (2024-02-14T04:50:18Z)
On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks [17.329365493094542]
ゲーム・オブ・24(Game of 24)とグラフカラー化(Graph Coloring)とSTRIPSプランニング(STRIPS Planning)の3分野において,GPT-4の性能に関する実証的研究を行った。我々は,自己批判による顕著なパフォーマンス崩壊と,音外検証による顕著なパフォーマンス向上を観察した。
論文参考訳（メタデータ） (2024-02-12T23:11:01Z)
Question Decomposition Improves the Faithfulness of Model-Generated Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文参考訳（メタデータ） (2023-07-17T00:54:10Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
Complexity-Based Prompting for Multi-Step Reasoning [72.0057198610614]
大規模言語モデルに対して,多段階推論を行うための課題について検討する。中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。多段階推論のためのシンプルで効果的な例選択方式である複雑性ベースのプロンプトを提案する。
論文参考訳（メタデータ） (2022-10-03T05:33:27Z)
Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-08-30T13:44:41Z)
Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文参考訳（メタデータ） (2021-04-18T07:00:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。