論文の概要: CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
- arxiv url: http://arxiv.org/abs/2403.09032v1
- Date: Thu, 14 Mar 2024 01:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:07:16.835415
- Title: CodeUltraFeedback: An LLM-as-a-Judge Dataset for Aligning Large Language Models to Coding Preferences
- Title(参考訳): CodeUltraFeedback:LLM-as-a-Judgeデータセット
- Authors: Martin Weyssow, Aton Kamanda, Houari Sahraoui,
- Abstract要約: CodeUltraFeedbackは1万の複雑な命令の選好データセットで、LLMをAIフィードバックによるコーディング選好に調整し、調整する。
以上の結果から,CoDAL-Bench上では,AIフィードバックからの強化学習によりCodeLlama-7B-Instructが34B LLMを上回った。
- 参考スコア(独自算出の注目度): 2.3749120526936465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the alignment of large language models (LLMs) with user-defined coding preferences is a challenging endeavour that requires assessing intricate textual LLMs' outputs. By relying on automated metrics and static analysis tools, existing benchmarks fail to assess nuances in user instructions and LLM outputs, highlighting the need for large-scale datasets and benchmarks for LLM preference alignment. In this paper, we introduce CodeUltraFeedback, a preference dataset of 10,000 complex instructions to tune and align LLMs to coding preferences through AI feedback. We generate responses to the instructions using a pool of 14 diverse LLMs, which we then annotate according to their alignment with five coding preferences using the LLM-as-a-Judge approach with GPT-3.5, producing both numerical and textual feedback. We also present CODAL-Bench, a benchmark for assessing LLM alignment with these coding preferences. Our results show that CodeLlama-7B-Instruct, aligned through reinforcement learning from AI feedback (RLAIF) with direct preference optimization (DPO) using CodeUltraFeedback's AI feedback data, outperforms 34B LLMs on CODAL-Bench, validating the utility of CodeUltraFeedback for preference tuning. Furthermore, we show our DPO-aligned CodeLlama model improves functional correctness on HumanEval+ compared to the unaligned base model. Therefore, our contributions bridge the gap in preference tuning of LLMs for code and set the stage for further advancements in model alignment and RLAIF for code intelligence. Our code and data are available at https://github.com/martin-wey/CodeUltraFeedback.
- Abstract(参考訳): 大規模言語モデル(LLM)とユーザ定義のコーディング嗜好の整合性を評価することは、複雑なテキストLLMの出力を評価することを必要とする困難な取り組みである。
自動メトリクスと静的解析ツールに頼ることで、既存のベンチマークはユーザインストラクションとLLM出力のニュアンスを評価することができず、LLMの優先順位調整のための大規模データセットとベンチマークの必要性を強調している。
本稿では,LLMをAIフィードバックによるコーディングの好みに合わせて調整・調整するための,1万の複雑な命令の嗜好データセットであるCodeUltraFeedbackを紹介する。
我々は14種類のLCMのプールを用いて命令に対する応答を生成し、GPT-3.5を用いたLCM-as-a-Judgeアプローチを用いて5つのコーディング嗜好にアノテートし、数値とテキストの両方のフィードバックを生成する。
また、これらのコーディング嗜好とLLMアライメントを評価するためのベンチマークであるCODAL-Benchを提案する。
この結果から, CodeLlama-7B-Instructは, CodeUltraFeedbackのAIフィードバックデータを用いてAIフィードバック(RLAIF)から強化学習を行い, CODAL-Bench上で34B LLMを上回った。
さらに、DPO対応のCodeLlamaモデルにより、不整合ベースモデルと比較してHumanEval+の機能的正しさが向上することを示す。
したがって、コードに対するLLMの嗜好調整のギャップを埋め、モデルアライメントのさらなる進歩とコードインテリジェンスのためのRLAIFのステージを設定します。
私たちのコードとデータはhttps://github.com/martin-wey/CodeUltraFeedback.comで公開されています。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Fine Tuning LLM for Enterprise: Practical Guidelines and Recommendations [2.699900017799093]
我々は、企業リポジトリのプロプライエタリなドキュメントとコードを使用したオープンソースのLLMであるLLaMAの微調整に重点を置いている。
この作業の一環として、私たちは初心者に、ドキュメントやコードのための LLM の微調整から始める方法について、ガイドすることを目指しています。
また、さまざまなフォーマットでデータセットを作成するために、ドキュメンテーションとコードの両方に事前処理のレシピを提案する。
論文 参考訳(メタデータ) (2024-03-23T13:25:01Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks [12.629516072317331]
Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。
このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-07T05:05:56Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - Coarse-Tuning Models of Code with Reinforcement Learning Feedback [0.0]
コード上で事前訓練されたLarge Language Models (LLM) が、プログラム合成の主流のアプローチとして登場した。
コードの品質を評価する接地関数からのフィードバックを用いて、強化学習により事前学習したLLMをさらに訓練するRCCFを提案する。
論文 参考訳(メタデータ) (2023-05-25T22:09:08Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。