論文の概要: CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
- arxiv url: http://arxiv.org/abs/2502.04350v1
- Date: Tue, 04 Feb 2025 15:53:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:59:15.667489
- Title: CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
- Title(参考訳): CodeSteer: コード/テキストガイダンスによるシンボリック拡張言語モデル
- Authors: Yongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan,
- Abstract要約: 既存のメソッドは、テキスト推論とコード生成の間に大きな言語モデル(LLM)を操ることができない。
我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。
GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇する。
- 参考スコア(独自算出の注目度): 12.001043263281698
- License:
- Abstract: Existing methods fail to effectively steer Large Language Models (LLMs) between textual reasoning and code generation, leaving symbolic computing capabilities underutilized. We introduce CodeSteer, an effective method for guiding LLM code/text generation. We construct a comprehensive benchmark SymBench comprising 37 symbolic tasks with adjustable complexity and also synthesize datasets of 12k multi-round guidance/generation trajectories and 5.5k guidance comparison pairs. We fine-tune the Llama-3-8B model with a newly designed multi-round supervised fine-tuning (SFT) and direct preference optimization (DPO). The resulting model, CodeSteerLLM, augmented with the proposed symbolic and self-answer checkers, effectively guides the code/text generation of larger models. Augmenting GPT-4o with CodeSteer raises its average performance score from 53.3 to 86.4, even outperforming the existing best LLM OpenAI o1 (82.7), o1-preview (74.8), and DeepSeek R1 (76.8) across all 37 tasks (28 seen, 9 unseen). Trained for GPT-4o, CodeSteer demonstrates superior generalizability, providing an average 41.8 performance boost on Claude, Mistral, and GPT-3.5. CodeSteer-guided LLMs fully harness symbolic computing to maintain strong performance on highly complex tasks. Models, Datasets, and Codes are available at https://github.com/yongchao98/CodeSteer-v1.0.
- Abstract(参考訳): 既存のメソッドは、テキスト推論とコード生成の間でLLM(Large Language Models)を効果的に操ることに失敗し、シンボリックコンピューティング能力は未利用のままである。
我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。
我々は,37のシンボリックタスクからなる総合ベンチマークSymBenchを構築し,12kの多ラウンド誘導/生成トラジェクトリと5.5kのガイダンス比較ペアのデータセットを合成する。
我々は、Llama-3-8Bモデルに、新しく設計されたマルチラウンド教師付き微調整(SFT)と直接選好最適化(DPO)をファインチューニングする。
得られたモデルであるCodeSteerLLMは、提案されたシンボルと自己回答チェッカーで拡張され、より大きなモデルのコード/テキスト生成を効果的に導く。
GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇し、既存の最高のLLM OpenAI o1 (82.7)、o1-preview (74.8)、DeepSeek R1 (76.8)を37タスク(28回、9回未確認)で上回った。
GPT-4o用にトレーニングされたCodeSteerは、Claude、Mistral、GPT-3.5で平均41.8のパフォーマンス向上を提供する、優れた汎用性を示している。
CodeSteer-Guided LLMは、高度に複雑なタスクにおいて強力なパフォーマンスを維持するために、シンボリックコンピューティングを完全に活用する。
Models、Datasets、Codesはhttps://github.com/yongchao98/CodeSteer-v1.0で入手できる。
関連論文リスト
- CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。
OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。
我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文 参考訳(メタデータ) (2024-10-09T08:23:22Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - Automating Code Adaptation for MLOps -- A Benchmarking Study on LLMs [0.0]
各種MLOps機能の自動達成におけるOpenAI(gpt-3.5-turbo)とWizardCoder(オープンソース,15Bパラメータ)モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-10T22:18:43Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。
FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。
我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文 参考訳(メタデータ) (2024-02-22T16:06:23Z) - Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large
Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。
BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。
また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文 参考訳(メタデータ) (2023-12-15T08:32:28Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。