論文の概要: LangProp: A code optimization framework using Language Models applied to
driving
- arxiv url: http://arxiv.org/abs/2401.10314v1
- Date: Thu, 18 Jan 2024 18:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 17:55:25.837308
- Title: LangProp: A code optimization framework using Language Models applied to
driving
- Title(参考訳): LangProp: 運転に適用される言語モデルを用いたコード最適化フレームワーク
- Authors: Shu Ishida, Gianluca Corrado, George Fedoseev, Hudson Yeo, Lloyd
Russell, Jamie Shotton, Jo\~ao F. Henriques, Anthony Hu
- Abstract要約: LangPropは、大規模言語モデル(LLM)によって生成されたコードを、教師付き/強化学習環境で反復的に最適化するフレームワークである。
我々は、LangPropが、メトリックおよびデータ駆動方式で検証および改善可能な、解釈可能かつ透明な駆動ポリシーを生成することができることを示す。
- 参考スコア(独自算出の注目度): 10.510422505851194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LangProp is a framework for iteratively optimizing code generated by large
language models (LLMs) in a supervised/reinforcement learning setting. While
LLMs can generate sensible solutions zero-shot, the solutions are often
sub-optimal. Especially for code generation tasks, it is likely that the
initial code will fail on certain edge cases. LangProp automatically evaluates
the code performance on a dataset of input-output pairs, as well as catches any
exceptions, and feeds the results back to the LLM in the training loop, so that
the LLM can iteratively improve the code it generates. By adopting a metric-
and data-driven training paradigm for this code optimization procedure, one
could easily adapt findings from traditional machine learning techniques such
as imitation learning, DAgger, and reinforcement learning. We demonstrate the
first proof of concept of automated code optimization for autonomous driving in
CARLA, showing that LangProp can generate interpretable and transparent driving
policies that can be verified and improved in a metric- and data-driven way.
Our code will be open-sourced and is available at
https://github.com/shuishida/LangProp.
- Abstract(参考訳): LangPropは、大規模言語モデル(LLM)によって生成されたコードを、教師付き/強化学習環境で反復的に最適化するフレームワークである。
LLMはゼロショットで知覚可能な解を生成することができるが、解はしばしば準最適である。
特にコード生成タスクの場合、初期コードは特定のエッジケースで失敗する可能性が高い。
langpropは、入出力ペアのデータセット上でのコードパフォーマンスを自動的に評価し、例外をキャッチし、トレーニングループで結果をllmに返して、llmが生成するコードを反復的に改善できるようにします。
このコード最適化手順にメトリックとデータ駆動のトレーニングパラダイムを採用することで、模倣学習、DAgger、強化学習といった従来の機械学習技術からの発見を容易に適応できる。
我々は、CARLAにおける自動運転のための自動コード最適化の概念の最初の証明を示し、LangPropは、メートル法およびデータ駆動方式で検証および改善可能な解釈可能かつ透明な運転ポリシーを生成することができることを示した。
私たちのコードはオープンソースで、https://github.com/shuishida/LangProp.orgから入手可能です。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - DolphCoder: Echo-Locating Code Large Language Models with Diverse and
Multi-Objective Instruction Tuning [36.78560777629329]
コード生成を自己評価する多種多様な命令モデル(DolphCoder)を導入する。
多様な命令ターゲットを学習し、コード生成能力を高めるためにコード評価の目的を組み合わせる。
本モデルは,HumanEvalおよびMBPPベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-14T12:34:58Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Test-Case-Driven Programming Understanding in Large Language Models for
Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。