論文の概要: Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2406.13542v3
- Date: Thu, 18 Jul 2024 09:00:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 13:52:17.005395
- Title: Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
- Title(参考訳): 実行フィードバックによるセルフプレイ:大規模言語モデルの指示追従能力の向上
- Authors: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou,
- Abstract要約: トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
- 参考スコア(独自算出の注目度): 54.14602121129874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF.
- Abstract(参考訳): 大規模言語モデル(LLM)のコア機能のひとつは、自然言語命令に従うことだ。
しかし、手動のアノテーションを使わずにLLMの複雑な命令追従能力を高めるために、高品質なトレーニングデータを自動的に構築するという問題は未解決のままである。
本稿では,命令追従学習データを自動的に生成する最初のスケーラブルで信頼性の高い手法であるAutoIFを紹介する。
AutoIFは命令追従データ品質の検証をコード検証に変換し、命令を生成するためにLCM、命令応答の正しさをチェックするための対応するコード、コードの正しさを検証するための単体テストサンプルを生成する。
そして、実行フィードバックに基づく拒否サンプリングにより、監視された微調整(SFT)と人間フィードバック(RLHF)トレーニングからの強化学習のためのデータを生成することができる。
AutoIFは、SFT、オフラインDPO、オンラインDPOの3つのトレーニングアルゴリズムにおいて、自己調整と強弱蒸留設定において、トップオープンソースLLM、Qwen2、LLaMA3に適用することで、大幅な改善を実現している。
私たちのコードはhttps://github.com/QwenLM/AutoIF.comで公開されています。
関連論文リスト
- LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Automatic High-quality Verilog Assertion Generation through Subtask-Focused Fine-Tuned LLMs and Iterative Prompting [0.0]
高品質なシステムVerilog Assertions (SVA) を自動生成する大規模言語モデル(LLM)に基づくフローを提案する。
サブタスクに着目したファインチューニング手法を導入し,機能的に正しいアサーションの数を7.3倍に増やした。
実験では、このアプローチを使って構文エラーのないアサーション数が26%増加した。
論文 参考訳(メタデータ) (2024-11-23T03:52:32Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Fine-Tuning and Prompt Engineering for Large Language Models-based Code Review Automation [4.941630596191807]
コードレビュー自動化にLLM(Large Language Models)を利用する場合、ファインチューニングとプロンプトが一般的なアプローチである。
LLMベースのコードレビュー自動化では、モデルファインチューニングと推論技術(ゼロショット学習、少数ショット学習、ペルソナ)を使用します。
その結果、ゼロショット学習によるGPT-3.5は、Guoらのアプローチよりも73.17%-74.23%高いEMが得られることがわかった。
論文 参考訳(メタデータ) (2024-02-01T03:10:26Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - SelfEvolve: A Code Evolution Framework via Large Language Models [5.6607714367826105]
大きな言語モデル(LLM)は、公開コードデータで事前訓練された後、コード生成に革命をもたらした。
本稿では,LLMを知識提供者と自己表現型プログラマの両方として活用する,autoknowと呼ばれる新しい2段階パイプラインを提案する。
データサイエンスコードのDS-1000、ソフトウェアエンジニアリングコードのHumanEval、C++からPythonへの翻訳のためのTransCoderの3つの自動知識生成データセットを評価した。
論文 参考訳(メタデータ) (2023-06-05T14:12:46Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。