Fugu-MT 論文翻訳(概要): How Do Humans Write Code? Large Models Do It the Same Way Too

論文の概要: How Do Humans Write Code? Large Models Do It the Same Way Too

arxiv url: http://arxiv.org/abs/2402.15729v1
Date: Sat, 24 Feb 2024 05:40:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 17:08:52.906581
Title: How Do Humans Write Code? Large Models Do It the Same Way Too
Title（参考訳）: 人間はどのようにコードを書くのか? 大型モデルも同じことをする
Authors: Long Li
Abstract要約: 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。 HTL(Human-Think Language)を提案する。
参考スコア（独自算出の注目度）: 2.234207140391484
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) often make errors when performing numerical calculations. In contrast to traditional chain-of-thought reasoning, the program-of-thoughts approach involves generating executable code to solve problems. By executing this code, it achieves more precise results. Using generated executable code instead of natural language can reduce computational errors. However, we observe that when LLMs solve mathematical problems using code, they tend to generate more incorrect reasoning than when using natural language. To address this issue, we propose Human-Think Language (HTL), a straightforward yet highly efficient approach inspired by human coding practices. The approach first generates problem-solving methods described in the natural language by the model, then converts them into code, mirroring the process where people think through the logic in natural language before writing it as code. Additionally, it utilizes the Proximal Policy Optimization (PPO) algorithm, enabling it to provide feedback to itself based on the correctness of mathematical answers, much like humans do. Finally, we introduce a focus-attention mechanism that masks the question segment, enhancing its reliance on natural language inference solutions during code generation. We conduct our experiments without introducing any additional information, and the results across five mathematical calculation datasets showcase the effectiveness of our approach. Notably, on the NumGLUE dataset, the LlaMA-2-7B-based model achieves a superior performance rate (75.1%) compared to the previous best performance with the LlaMA-2-70B model (74.4%).
Abstract（参考訳）: 大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。従来の連鎖推論とは対照的に、プログラム・オブ・思想のアプローチでは、問題を解決するために実行可能なコードを生成する。このコードを実行することで、より正確な結果が得られる。自然言語の代わりに生成された実行可能なコードを使用することで、計算エラーを低減できる。しかし、LLMがコードを用いて数学的問題を解くと、自然言語を使う場合よりも誤った推論が生じる傾向がある。この問題に対処するために、人間のコーディングプラクティスに触発された、単純かつ高効率なアプローチであるHTL(Human-Think Language)を提案する。このアプローチはまず、モデルによって自然言語で記述された問題解決メソッドを生成し、次にそれらをコードに変換して、人々が自然言語でロジックを通して考えるプロセスをコードとして記述する。さらに、近位政策最適化(proximal policy optimization, ppo)アルゴリズムを使用して、人間と同じように、数学的回答の正確性に基づいたフィードバックを提供する。最後に,問題セグメントを隠蔽し,コード生成時の自然言語推論ソリューションへの依存度を高めたフォーカスアテンション機構を導入する。追加情報を導入することなく実験を行い,5つの数理計算データセットにまたがる結果から,本手法の有効性を示す。特に、NumGLUEデータセットでは、LlaMA-2-7Bベースのモデルは、以前のLlaMA-2-70Bモデル(74.4%)と比較して、より優れたパフォーマンス(75.1%)を達成する。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。 Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文参考訳（メタデータ） (2025-06-11T14:59:02Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
CoT-RAG: Integrating Chain of Thought and Retrieval-Augmented Generation to Enhance Reasoning in Large Language Models [14.784841713647682]
CoT-RAGは3つの重要な設計を持つ新しい推論フレームワークである。知識グラフ駆動のCoT生成、学習可能な知識ケース対応RAG、擬似プログラム実行などを備えている。最先端の方法と比較すると、CoT-RAGは4.0%から23.0%の精度で大幅に改善されている。
論文参考訳（メタデータ） (2025-04-18T07:55:09Z)
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics [25.308196207219613]
CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-08T18:49:41Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Beyond Imitation: Learning Key Reasoning Steps from Dual Chain-of-Thoughts in Reasoning Distillation [24.272384832200522]
我々はmistaktextbfE-textbfDriven key reasontextbfIng step distillatextbfTion (textbfEDIT)を提案する。我々は、類似の推論経路を持つ2つのCoTsデータを生成するためのプロンプトを設計する。実験は、ドメイン内およびドメイン外のベンチマーク推論データセットの両方でEDITの有効性を検証する。
論文参考訳（メタデータ） (2024-05-30T06:32:11Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning [75.74103236299477]
CoT(Chain-of- Thought prompting)とツール拡張は、大きな言語モデルを改善するための効果的なプラクティスとして検証されている。ツールインターフェース,すなわち textbfDELI を用いた推論ステップを考慮に入れた新しい手法を提案する。 CARPと他の6つのデータセットの実験結果から、提案されたDELIは、主に競合ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-06-04T17:02:59Z)
Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。 GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文参考訳（メタデータ） (2023-05-26T02:15:09Z)
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks [108.4568236569645]
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。 PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
論文参考訳（メタデータ） (2022-11-22T21:06:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。