論文の概要: LeTI: Learning to Generate from Textual Interactions
- arxiv url: http://arxiv.org/abs/2305.10314v1
- Date: Wed, 17 May 2023 15:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:03:28.473106
- Title: LeTI: Learning to Generate from Textual Interactions
- Title(参考訳): LeTI: テキストインタラクションから生成する学習
- Authors: Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji
- Abstract要約: 本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
- 参考スコア(独自算出の注目度): 59.79240825328176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finetuning pre-trained language models (LMs) enhances the models'
capabilities. Prior techniques fine-tune a pre-trained LM on input-output pairs
(e.g., instruction fine-tuning), or with numerical rewards that gauge the
quality of its outputs (e.g., reinforcement learning from human feedback). We
explore LMs' potential to learn from textual interactions (LeTI) that not only
check their correctness with binary labels, but also pinpoint and explain
errors in their outputs through textual feedback. Our investigation focuses on
the code generation task, where the model produces code pieces in response to
natural language instructions. This setting invites a natural and scalable way
to acquire the textual feedback: the error messages and stack traces from code
execution using a Python interpreter. LeTI iteratively fine-tunes the model,
using the LM objective, on a concatenation of natural language instructions,
LM-generated programs, and textual feedback, which is only provided when the
generated program fails to solve the task. Prepended to this fine-tuning text,
a binary reward token is used to differentiate correct and buggy solutions. On
MBPP, a code generation dataset, LeTI substantially improves the performance of
two base LMs of different scales. LeTI requires no ground-truth outputs for
training and even outperforms a fine-tuned baseline that does. LeTI's strong
performance generalizes to other datasets. Trained on MBPP, it achieves
comparable or better performance than the base LMs on unseen problems in
HumanEval. Furthermore, compared to binary feedback, we observe that textual
feedback leads to improved generation quality and sample efficiency, achieving
the same performance with fewer than half of the gradient steps. LeTI is
equally applicable in natural language tasks when they can be formulated as
code generation, which we empirically verified on event argument extraction.
- Abstract(参考訳): 訓練済み言語モデル(LM)の微調整により、モデルの能力が向上する。
先行技術は、入力出力ペア(例えば、命令の微調整)で事前訓練されたLMを微調整するか、あるいは出力の品質(例えば、人間のフィードバックからの強化学習)を測定する数値的な報酬を持つ。
本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
私たちの調査は、モデルが自然言語命令に応答してコードピースを生成するコード生成タスクに焦点を当てています。
この設定では、Pythonインタプリタを使用したコード実行からエラーメッセージとスタックトレースという、テキストフィードバックを取得する自然なスケーラブルな方法が紹介されている。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
この微調整テキストに先立って、バイナリ報酬トークンを使用して、正しいソリューションとバギーソリューションを区別する。
コード生成データセットMBPPでは、LeTIは異なるスケールの2つのベースLMの性能を大幅に改善する。
LeTIは、トレーニングに地味な出力は必要とせず、微調整されたベースラインよりも優れています。
LeTIの強力なパフォーマンスは他のデータセットに一般化される。
MBPPで訓練され、HumanEvalの見当たらない問題に対して、基本のLMと同等または優れた性能を達成する。
さらに,バイナリフィードバックと比較して,テキストフィードバックが生成品質の向上とサンプル効率の向上につながり,グラデーションステップの半分以下で同じ性能を達成することを観察した。
LeTIは、イベント引数抽出で実証的に検証したコード生成として定式化できる自然言語タスクにも等しく適用可能である。
関連論文リスト
- Exploring and Unleashing the Power of Large Language Models in Automated Code Translation [40.25727029618665]
本稿では,自動翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討する。
UniTrans は、様々な LLM に適用可能な統一コード翻訳フレームワークである。
最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-23T00:49:46Z) - Grounding Data Science Code Generation with Input-Output Specifications [32.07033683677839]
大規模言語モデル(LLM)は、最近、自然言語プロンプトからコードを生成する驚くべき能力を示した。
LLMは出力をNLプロンプトとI/O仕様の両方と整合させることが困難である。
I/O 仕様に対する LLM の微調整のための新しい手法である GIFT4Code を提案する。
論文 参考訳(メタデータ) (2024-02-12T21:32:49Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。
既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。
コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T16:09:36Z) - LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning
Tasks [22.274913349275817]
アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。
モデルアーキテクチャや損失関数を変更することなく、非言語ダウンストリームタスクを解決するために、Language-Interfaced Fine-Tuning (LIFT)を提案する。
LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インターフェースに依存している。
論文 参考訳(メタデータ) (2022-06-14T02:41:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。