Fugu-MT 論文翻訳(概要): CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

論文の概要: CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance

arxiv url: http://arxiv.org/abs/2502.04350v1
Date: Tue, 04 Feb 2025 15:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.814485
Title: CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance
Title（参考訳）: CodeSteer: コード/テキストガイダンスによるシンボリック拡張言語モデル
Authors: Yongchao Chen, Yilun Hao, Yueying Liu, Yang Zhang, Chuchu Fan,
Abstract要約: 既存のメソッドは、テキスト推論とコード生成の間に大きな言語モデル(LLM)を操ることができない。我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。 GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇する。
参考スコア（独自算出の注目度）: 12.001043263281698
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Existing methods fail to effectively steer Large Language Models (LLMs) between textual reasoning and code generation, leaving symbolic computing capabilities underutilized. We introduce CodeSteer, an effective method for guiding LLM code/text generation. We construct a comprehensive benchmark SymBench comprising 37 symbolic tasks with adjustable complexity and also synthesize datasets of 12k multi-round guidance/generation trajectories and 5.5k guidance comparison pairs. We fine-tune the Llama-3-8B model with a newly designed multi-round supervised fine-tuning (SFT) and direct preference optimization (DPO). The resulting model, CodeSteerLLM, augmented with the proposed symbolic and self-answer checkers, effectively guides the code/text generation of larger models. Augmenting GPT-4o with CodeSteer raises its average performance score from 53.3 to 86.4, even outperforming the existing best LLM OpenAI o1 (82.7), o1-preview (74.8), and DeepSeek R1 (76.8) across all 37 tasks (28 seen, 9 unseen). Trained for GPT-4o, CodeSteer demonstrates superior generalizability, providing an average 41.8 performance boost on Claude, Mistral, and GPT-3.5. CodeSteer-guided LLMs fully harness symbolic computing to maintain strong performance on highly complex tasks. Models, Datasets, and Codes are available at https://github.com/yongchao98/CodeSteer-v1.0.
Abstract（参考訳）: 既存のメソッドは、テキスト推論とコード生成の間でLLM(Large Language Models)を効果的に操ることに失敗し、シンボリックコンピューティング能力は未利用のままである。我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。我々は,37のシンボリックタスクからなる総合ベンチマークSymBenchを構築し,12kの多ラウンド誘導/生成トラジェクトリと5.5kのガイダンス比較ペアのデータセットを合成する。我々は、Llama-3-8Bモデルに、新しく設計されたマルチラウンド教師付き微調整(SFT)と直接選好最適化(DPO)をファインチューニングする。得られたモデルであるCodeSteerLLMは、提案されたシンボルと自己回答チェッカーで拡張され、より大きなモデルのコード/テキスト生成を効果的に導く。 GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇し、既存の最高のLLM OpenAI o1 (82.7)、o1-preview (74.8)、DeepSeek R1 (76.8)を37タスク(28回、9回未確認)で上回った。 GPT-4o用にトレーニングされたCodeSteerは、Claude、Mistral、GPT-3.5で平均41.8のパフォーマンス向上を提供する、優れた汎用性を示している。 CodeSteer-Guided LLMは、高度に複雑なタスクにおいて強力なパフォーマンスを維持するために、シンボリックコンピューティングを完全に活用する。 Models、Datasets、Codesはhttps://github.com/yongchao98/CodeSteer-v1.0で入手できる。

関連論文リスト

NL in the Middle: Code Translation with LLMs and Intermediate Representations [66.41928783565795]
大きな言語モデル(LLM)はバグのあるコード翻訳を生成する。 LLMを用いたコード翻訳が自然言語(NL)と抽象構文木(AST)による中間表現の恩恵を受けるかどうかを検討する。
論文参考訳（メタデータ） (2025-07-11T14:29:21Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文参考訳（メタデータ） (2025-07-01T11:51:40Z)
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning [14.208804782749793]
R1-Code-Interpreterは,マルチターン制御微調整(SFT)と強化学習(RL)によって訓練されたテキストのみの大規模言語モデル(LLM)の拡張である。 R1-Code-Interpreterはステップバイステップ推論中に複数のコードクエリを自律的に生成する。従来のRLの狭いドメインでの作業とは異なり、タスクの多様性と高価なコード実行のために、コードインタープリタのトレーニングがかなり難しいことが分かりました。
論文参考訳（メタデータ） (2025-05-27T18:47:33Z)
CRPE: Expanding The Reasoning Capability of Large Language Model for Code Generation [5.63821063617385]
CRPE(Code Reasoning Process Enhancer)は、データ合成とモデルトレーニングのためのフレームワークである。我々は,コード生成タスクの大幅な改善を示す拡張COTコーダを開発した。 Qwen2.5-Coder-32B-BaseをベースとしたCOT-Coder-32B-StepDPOは,パス@1精度35.08で優れた性能を示し,ベンチマークではGPT4Oを上回った。
論文参考訳（メタデータ） (2025-05-15T08:13:45Z)
S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。 S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文参考訳（メタデータ） (2025-02-20T09:18:53Z)
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance [65.01483640267885]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示してきたが、コード生成は依然として大きな課題である。私たちは、モデル生成ユニットテストを活用してコード生成プロセスのガイドと検証を行う、システマティックパイプラインであるUnitCoderを紹介します。我々の研究は、モデル生成単体テストを利用して、事前学習コーパスから高品質なコードデータの合成を誘導するスケーラブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-02-17T05:37:02Z)
Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文参考訳（メタデータ） (2024-12-06T17:40:38Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文参考訳（メタデータ） (2024-11-07T00:09:54Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
Revisiting VerilogEval: A Year of Improvements in Large-Language Models for Hardware Code Generation [6.463959200930805]
オープンソースのVerilogEvalベンチマークのリリース以降,新しい商用およびオープンなモデルを評価する。最先端のモデルでは測定可能な改善が得られます。高いパスレートを達成するためには、迅速なエンジニアリングが不可欠であることに気付きました。
論文参考訳（メタデータ） (2024-08-20T17:58:56Z)
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement [58.034012276819425]
我々はOpenCodeInterpreterを紹介した。OpenCodeInterpreterは、コードを生成、実行、反復的に精製するためのオープンソースのコードシステムのファミリーである。我々は,HumanEvalやMBPP,EvalPlusの強化バージョンなど,主要なベンチマークを対象としたOpenCodeInterpreterの総合評価を行った。
論文参考訳（メタデータ） (2024-02-22T16:06:23Z)
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models [37.8941430624661]
本研究では,バイナリコード理解のための大規模言語モデル (LLM) の可能性について検討する。 BinSumは557K以上のバイナリ関数の包括的なベンチマークとデータセットである。また,従来の完全マッチング手法を超越した意味的類似度尺度を提案する。
論文参考訳（メタデータ） (2023-12-15T08:32:28Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。