論文の概要: How Do Humans Write Code? Large Models Do It the Same Way Too
- arxiv url: http://arxiv.org/abs/2402.15729v1
- Date: Sat, 24 Feb 2024 05:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:08:52.906581
- Title: How Do Humans Write Code? Large Models Do It the Same Way Too
- Title(参考訳): 人間はどのようにコードを書くのか?
大型モデルも同じことをする
- Authors: Long Li
- Abstract要約: 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。
HTL(Human-Think Language)を提案する。
- 参考スコア(独自算出の注目度): 2.234207140391484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often make errors when performing numerical
calculations. In contrast to traditional chain-of-thought reasoning, the
program-of-thoughts approach involves generating executable code to solve
problems. By executing this code, it achieves more precise results. Using
generated executable code instead of natural language can reduce computational
errors. However, we observe that when LLMs solve mathematical problems using
code, they tend to generate more incorrect reasoning than when using natural
language. To address this issue, we propose Human-Think Language (HTL), a
straightforward yet highly efficient approach inspired by human coding
practices. The approach first generates problem-solving methods described in
the natural language by the model, then converts them into code, mirroring the
process where people think through the logic in natural language before writing
it as code. Additionally, it utilizes the Proximal Policy Optimization (PPO)
algorithm, enabling it to provide feedback to itself based on the correctness
of mathematical answers, much like humans do. Finally, we introduce a
focus-attention mechanism that masks the question segment, enhancing its
reliance on natural language inference solutions during code generation. We
conduct our experiments without introducing any additional information, and the
results across five mathematical calculation datasets showcase the
effectiveness of our approach. Notably, on the NumGLUE dataset, the
LlaMA-2-7B-based model achieves a superior performance rate (75.1%) compared to
the previous best performance with the LlaMA-2-70B model (74.4%).
- Abstract(参考訳): 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。
従来の連鎖推論とは対照的に、プログラム・オブ・思想のアプローチでは、問題を解決するために実行可能なコードを生成する。
このコードを実行することで、より正確な結果が得られる。
自然言語の代わりに生成された実行可能なコードを使用することで、計算エラーを低減できる。
しかし、LLMがコードを用いて数学的問題を解くと、自然言語を使う場合よりも誤った推論が生じる傾向がある。
この問題に対処するために、人間のコーディングプラクティスに触発された、単純かつ高効率なアプローチであるHTL(Human-Think Language)を提案する。
このアプローチはまず、モデルによって自然言語で記述された問題解決メソッドを生成し、次にそれらをコードに変換して、人々が自然言語でロジックを通して考えるプロセスをコードとして記述する。
さらに、近位政策最適化(proximal policy optimization, ppo)アルゴリズムを使用して、人間と同じように、数学的回答の正確性に基づいたフィードバックを提供する。
最後に,問題セグメントを隠蔽し,コード生成時の自然言語推論ソリューションへの依存度を高めたフォーカスアテンション機構を導入する。
追加情報を導入することなく実験を行い,5つの数理計算データセットにまたがる結果から,本手法の有効性を示す。
特に、NumGLUEデータセットでは、LlaMA-2-7Bベースのモデルは、以前のLlaMA-2-70Bモデル(74.4%)と比較して、より優れたパフォーマンス(75.1%)を達成する。
関連論文リスト
- Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by
Imitating Human Thought Processes [6.512667145063511]
本稿では,人間の思考過程を模倣し,数学的推論能力を高める新しい手法であるBrainを提案する。
まず,コードLLaMA 7Bをベースとしたモデルと比較し,SOTAの性能を評価する。
第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T17:40:31Z) - The Consensus Game: Language Model Generation via Equilibrium Search [73.51411916625032]
言語モデル復号のための学習不要なゲーム理論を新たに導入する。
本手法では,正規化不完全情報シーケンシャルシグナリングゲームとして,言語モデルの復号化を行う。
EQUILIBRium-RANKINGをLLaMA-7Bに適用すると、より大型のLLaMA-65BとPaLM-540Bより優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-13T14:27:21Z) - MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical
Reasoning [52.97768001837269]
本稿では,オープンソース言語モデルを微調整する手法を提案する。
本稿では,問題のある新しい,高品質なデータセットを生成する手法とそのコードベースソリューションを提案する。
このアプローチは、問題の解決にコードベースのソリューションを生成することができるモデルのファミリーであるMathCoderモデルを生成する。
論文 参考訳(メタデータ) (2023-10-05T17:52:09Z) - MathPrompter: Mathematical Reasoning using Large Language Models [7.953723258038284]
大規模言語モデル (LLM) は算術的推論タスクを解く際の性能に制限がある。
MathPrompterはZero-shot-of- Thoughtプロンプト技術を使って複数の代数式やPython関数を生成し、異なる方法で同じ数学問題を解く。
論文 参考訳(メタデータ) (2023-03-04T04:43:49Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。