Fugu-MT 論文翻訳(概要): LangProp: A code optimization framework using Large Language Models applied to driving

論文の概要: LangProp: A code optimization framework using Large Language Models applied to driving

arxiv url: http://arxiv.org/abs/2401.10314v2
Date: Fri, 3 May 2024 16:15:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 17:37:33.036281
Title: LangProp: A code optimization framework using Large Language Models applied to driving
Title（参考訳）: LangProp: 運転に適用される大規模言語モデルを用いたコード最適化フレームワーク
Authors: Shu Ishida, Gianluca Corrado, George Fedoseev, Hudson Yeo, Lloyd Russell, Jamie Shotton, João F. Henriques, Anthony Hu,
Abstract要約: LangPropは、大規模言語モデル(LLM)によって生成されたコードを反復的に最適化するフレームワークである。我々は、LangPropが、メトリックとデータ駆動の方法で検証と改善が可能な、解釈可能な、透過的なポリシーをどうやって生成できるかを示す。
参考スコア（独自算出の注目度）: 17.581983909703283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose LangProp, a framework for iteratively optimizing code generated by large language models (LLMs), in both supervised and reinforcement learning settings. While LLMs can generate sensible coding solutions zero-shot, they are often sub-optimal. Especially for code generation tasks, it is likely that the initial code will fail on certain edge cases. LangProp automatically evaluates the code performance on a dataset of input-output pairs, catches any exceptions, and feeds the results back to the LLM in the training loop, so that the LLM can iteratively improve the code it generates. By adopting a metric- and data-driven training paradigm for this code optimization procedure, one could easily adapt findings from traditional machine learning techniques such as imitation learning, DAgger, and reinforcement learning. We show LangProp's applicability to general domains such as Sudoku and CartPole, as well as demonstrate the first proof of concept of automated code optimization for autonomous driving in CARLA. We show that LangProp can generate interpretable and transparent policies that can be verified and improved in a metric- and data-driven way. Our code is available at https://github.com/shuishida/LangProp.
Abstract（参考訳）: 本稿では,LangPropを提案する。LangPropは,大規模言語モデル(LLM)が生成するコードを,教師付きおよび強化学習設定の両方で反復的に最適化するフレームワークである。 LLMはゼロショットで有能な符号化ソリューションを生成することができるが、しばしば準最適である。特にコード生成タスクの場合、初期コードは特定のエッジケースで失敗する可能性が高い。 LangPropは入力と出力のペアのデータセット上でコードのパフォーマンスを自動的に評価し、例外をキャッチし、トレーニングループのLSMに結果を返す。このコード最適化手順にメトリックとデータ駆動のトレーニングパラダイムを採用することで、模倣学習、DAgger、強化学習といった従来の機械学習技術からの発見を容易に適応できる。我々は、SudokuやCartPoleといった一般的なドメインに適用可能であることを示し、CARLAにおける自律運転のための自動コード最適化の第一の証明を示す。我々は、LangPropが、メトリックおよびデータ駆動方式で検証および改善可能な、解釈可能な、透過的なポリシーを生成することができることを示す。私たちのコードはhttps://github.com/shuishida/LangProp.comで公開されています。

関連論文リスト

Code Evolution Graphs: Understanding Large Language Model Driven Design of Algorithms [2.827573861233375]
大規模言語モデル(LLM)はコード生成において大きな可能性を証明しています。 3つのベンチマーク問題クラスの結果を示し、新しい知見を示す。
論文参考訳（メタデータ） (2025-03-20T19:30:22Z)
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs [56.24431208419858]
UnderlinetextbfDirect Preference Learning with only underlinetextbfSelf-Generated underlinetextbfTests and underlinetextbfCode (DSTC)を紹介する。 DSTCは自己生成コードスニペットとテストのみを使用して信頼性の高い選好ペアを構築する。
論文参考訳（メタデータ） (2024-11-20T02:03:16Z)
Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文参考訳（メタデータ） (2024-11-06T10:28:46Z)
Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-14T07:05:51Z)
Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。最近リリースされたOpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。 LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文参考訳（メタデータ） (2024-10-04T15:44:47Z)
When to Stop? Towards Efficient Code Generation in LLMs with Excess Token Prevention [43.39584272739589]
コード生成におけるコードLLMの推論高速化手法であるCodeFastを紹介する。 CodeFastの主なアイデアは、不要な余分なトークンが検出された場合に、推論プロセスを終了させることである。我々は、広く使われている4つのコード生成データセットにまたがる5つの代表的なコードLLM上で、CodeFastで広範な実験を行う。
論文参考訳（メタデータ） (2024-07-29T14:27:08Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-10-16T05:09:58Z)
Evaluating and Explaining Large Language Models for Code Using Syntactic Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文参考訳（メタデータ） (2023-08-07T18:50:57Z)
Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文参考訳（メタデータ） (2023-05-25T22:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。