論文の概要: How Do Humans Write Code? Large Models Do It the Same Way Too
- arxiv url: http://arxiv.org/abs/2402.15729v1
- Date: Sat, 24 Feb 2024 05:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:08:52.906581
- Title: How Do Humans Write Code? Large Models Do It the Same Way Too
- Title(参考訳): 人間はどのようにコードを書くのか?
大型モデルも同じことをする
- Authors: Long Li
- Abstract要約: 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。
HTL(Human-Think Language)を提案する。
- 参考スコア(独自算出の注目度): 2.234207140391484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often make errors when performing numerical
calculations. In contrast to traditional chain-of-thought reasoning, the
program-of-thoughts approach involves generating executable code to solve
problems. By executing this code, it achieves more precise results. Using
generated executable code instead of natural language can reduce computational
errors. However, we observe that when LLMs solve mathematical problems using
code, they tend to generate more incorrect reasoning than when using natural
language. To address this issue, we propose Human-Think Language (HTL), a
straightforward yet highly efficient approach inspired by human coding
practices. The approach first generates problem-solving methods described in
the natural language by the model, then converts them into code, mirroring the
process where people think through the logic in natural language before writing
it as code. Additionally, it utilizes the Proximal Policy Optimization (PPO)
algorithm, enabling it to provide feedback to itself based on the correctness
of mathematical answers, much like humans do. Finally, we introduce a
focus-attention mechanism that masks the question segment, enhancing its
reliance on natural language inference solutions during code generation. We
conduct our experiments without introducing any additional information, and the
results across five mathematical calculation datasets showcase the
effectiveness of our approach. Notably, on the NumGLUE dataset, the
LlaMA-2-7B-based model achieves a superior performance rate (75.1%) compared to
the previous best performance with the LlaMA-2-70B model (74.4%).
- Abstract(参考訳): 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。
従来の連鎖推論とは対照的に、プログラム・オブ・思想のアプローチでは、問題を解決するために実行可能なコードを生成する。
このコードを実行することで、より正確な結果が得られる。
自然言語の代わりに生成された実行可能なコードを使用することで、計算エラーを低減できる。
しかし、LLMがコードを用いて数学的問題を解くと、自然言語を使う場合よりも誤った推論が生じる傾向がある。
この問題に対処するために、人間のコーディングプラクティスに触発された、単純かつ高効率なアプローチであるHTL(Human-Think Language)を提案する。
このアプローチはまず、モデルによって自然言語で記述された問題解決メソッドを生成し、次にそれらをコードに変換して、人々が自然言語でロジックを通して考えるプロセスをコードとして記述する。
さらに、近位政策最適化(proximal policy optimization, ppo)アルゴリズムを使用して、人間と同じように、数学的回答の正確性に基づいたフィードバックを提供する。
最後に,問題セグメントを隠蔽し,コード生成時の自然言語推論ソリューションへの依存度を高めたフォーカスアテンション機構を導入する。
追加情報を導入することなく実験を行い,5つの数理計算データセットにまたがる結果から,本手法の有効性を示す。
特に、NumGLUEデータセットでは、LlaMA-2-7Bベースのモデルは、以前のLlaMA-2-70Bモデル(74.4%)と比較して、より優れたパフォーマンス(75.1%)を達成する。
関連論文リスト
- URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [25.308196207219613]
CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。
本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:49:41Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Evaluating and Improving Tool-Augmented Computation-Intensive Math
Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。
ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。
CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2023-06-04T17:02:59Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Program of Thoughts Prompting: Disentangling Computation from Reasoning
for Numerical Reasoning Tasks [108.4568236569645]
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。
本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。
PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
論文 参考訳(メタデータ) (2022-11-22T21:06:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。