Fugu-MT 論文翻訳(概要): LeTI: Learning to Generate from Textual Interactions

論文の概要: LeTI: Learning to Generate from Textual Interactions

arxiv url: http://arxiv.org/abs/2305.10314v1
Date: Wed, 17 May 2023 15:53:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 15:03:28.473106
Title: LeTI: Learning to Generate from Textual Interactions
Title（参考訳）: LeTI: テキストインタラクションから生成する学習
Authors: Xingyao Wang, Hao Peng, Reyhaneh Jabbarvand, Heng Ji
Abstract要約: 本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。 LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
参考スコア（独自算出の注目度）: 59.79240825328176
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Finetuning pre-trained language models (LMs) enhances the models' capabilities. Prior techniques fine-tune a pre-trained LM on input-output pairs (e.g., instruction fine-tuning), or with numerical rewards that gauge the quality of its outputs (e.g., reinforcement learning from human feedback). We explore LMs' potential to learn from textual interactions (LeTI) that not only check their correctness with binary labels, but also pinpoint and explain errors in their outputs through textual feedback. Our investigation focuses on the code generation task, where the model produces code pieces in response to natural language instructions. This setting invites a natural and scalable way to acquire the textual feedback: the error messages and stack traces from code execution using a Python interpreter. LeTI iteratively fine-tunes the model, using the LM objective, on a concatenation of natural language instructions, LM-generated programs, and textual feedback, which is only provided when the generated program fails to solve the task. Prepended to this fine-tuning text, a binary reward token is used to differentiate correct and buggy solutions. On MBPP, a code generation dataset, LeTI substantially improves the performance of two base LMs of different scales. LeTI requires no ground-truth outputs for training and even outperforms a fine-tuned baseline that does. LeTI's strong performance generalizes to other datasets. Trained on MBPP, it achieves comparable or better performance than the base LMs on unseen problems in HumanEval. Furthermore, compared to binary feedback, we observe that textual feedback leads to improved generation quality and sample efficiency, achieving the same performance with fewer than half of the gradient steps. LeTI is equally applicable in natural language tasks when they can be formulated as code generation, which we empirically verified on event argument extraction.
Abstract（参考訳）: 訓練済み言語モデル(LM)の微調整により、モデルの能力が向上する。先行技術は、入力出力ペア(例えば、命令の微調整)で事前訓練されたLMを微調整するか、あるいは出力の品質(例えば、人間のフィードバックからの強化学習)を測定する数値的な報酬を持つ。本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。私たちの調査は、モデルが自然言語命令に応答してコードピースを生成するコード生成タスクに焦点を当てています。この設定では、Pythonインタプリタを使用したコード実行からエラーメッセージとスタックトレースという、テキストフィードバックを取得する自然なスケーラブルな方法が紹介されている。 LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。この微調整テキストに先立って、バイナリ報酬トークンを使用して、正しいソリューションとバギーソリューションを区別する。コード生成データセットMBPPでは、LeTIは異なるスケールの2つのベースLMの性能を大幅に改善する。 LeTIは、トレーニングに地味な出力は必要とせず、微調整されたベースラインよりも優れています。 LeTIの強力なパフォーマンスは他のデータセットに一般化される。 MBPPで訓練され、HumanEvalの見当たらない問題に対して、基本のLMと同等または優れた性能を達成する。さらに,バイナリフィードバックと比較して,テキストフィードバックが生成品質の向上とサンプル効率の向上につながり,グラデーションステップの半分以下で同じ性能を達成することを観察した。 LeTIは、イベント引数抽出で実証的に検証したコード生成として定式化できる自然言語タスクにも等しく適用可能である。

関連論文リスト

Function-to-Style Guidance of LLMs for Code Translation [59.487054943812836]
コード翻訳における大規模言語モデルの性能向上を目的として,F2STransという関数型案内パラダイムを提案する。提案手法は,(1)高品質なソースターゲットコードペアを用いた翻訳精度を最適化する機能学習という2つの重要な段階から構成される。我々は,最新のソースコード,広範なテストケース,手動で注釈付き接頭辞翻訳を含む新しいコード翻訳ベンチマークを導入する。
論文参考訳（メタデータ） (2025-07-15T08:25:02Z)
Insights from Verification: Training a Verilog Generation LLM with Reinforcement Learning with Testbench Feedback [36.69082579950107]
大規模言語モデル(LLM)は、自然言語記述からVerilog生成において強力な性能を示している。本稿では,テストベンチからの検証洞察をVerilog 生成 LLM のトレーニングに統合する手法を提案する。
論文参考訳（メタデータ） (2025-04-22T11:38:14Z)
TinyHelen's First Curriculum: Training and Evaluating Tiny Language Models in a Simpler Language Environment [30.93798042712827]
トレーニング言語モデル(LM)とそのアプリケーションエージェントは、大規模なデータセットとモデルのために、ますますコストがかかる。ノイズを排除し、語彙を最小化し、ジャンル固有のパターンを維持することで、テキストデータを洗練するためのパイプラインを提案する。実験により,ランダー事前学習がLM学習効率を向上させることが示された。
論文参考訳（メタデータ） (2024-12-31T16:08:15Z)
Exploring and Unleashing the Power of Large Language Models in Automated Code Translation [40.25727029618665]
本稿では,自動翻訳タスクのための多種多様なLLMと学習ベーストランスパイラについて検討する。 UniTrans は、様々な LLM に適用可能な統一コード翻訳フレームワークである。最近の3つのLLMはUniTransでテストされており、いずれも大幅に改善されている。
論文参考訳（メタデータ） (2024-04-23T00:49:46Z)
Grounding Data Science Code Generation with Input-Output Specifications [32.07033683677839]
大規模言語モデル(LLM)は、最近、自然言語プロンプトからコードを生成する驚くべき能力を示した。 LLMは出力をNLプロンプトとI/O仕様の両方と整合させることが困難である。 I/O 仕様に対する LLM の微調整のための新しい手法である GIFT4Code を提案する。
論文参考訳（メタデータ） (2024-02-12T21:32:49Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。 LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文参考訳（メタデータ） (2023-06-01T07:00:07Z)
Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。 ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。 Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文参考訳（メタデータ） (2023-03-28T16:15:31Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文参考訳（メタデータ） (2022-10-13T16:09:36Z)
LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks [22.274913349275817]
アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。モデルアーキテクチャや損失関数を変更することなく、非言語ダウンストリームタスクを解決するために、Language-Interfaced Fine-Tuning (LIFT)を提案する。 LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インターフェースに依存している。
論文参考訳（メタデータ） (2022-06-14T02:41:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。