Fugu-MT 論文翻訳(概要): RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

論文の概要: RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.02089v2
Date: Tue, 18 Feb 2025 11:39:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:08.534711
Title: RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning
Title（参考訳）: RLEF: 強化学習による実行フィードバックのための基盤コードLLM
Authors: Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Quentin Carbonneaux, Taco Cohen, Gabriel Synnaeve,
Abstract要約: エージェントとしてデプロイされる大規模言語モデル(LLM)は、必要な手動のエンゲージメントを最小限に抑えながら、複数のステップでユーザ指定タスクを解決する。コード合成の領域における実行フィードバックを活用するためのモデル学習のためのエンドツーエンド強化学習手法を提案する。
参考スコア（独自算出の注目度）: 33.754240030720425
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) deployed as agents solve user-specified tasks over multiple steps while keeping the required manual engagement to a minimum. Crucially, such LLMs need to ground their generations in any feedback obtained to reliably achieve the desired outcomes. We propose an end-to-end reinforcement learning method for teaching models to leverage execution feedback in the realm of code synthesis, where state-of-the-art LLMs struggle to improve code iteratively compared to independent sampling. We benchmark on competitive programming tasks, where we achieve new state-of-the art results with both small (8B parameters) and large (70B) models while reducing the amount of samples required by an order of magnitude. Our analysis of inference-time behavior demonstrates that our method produces LLMs that effectively leverage automatic feedback over multiple steps.
Abstract（参考訳）: エージェントとしてデプロイされる大規模言語モデル(LLM)は、必要な手動のエンゲージメントを最小限に抑えながら、複数のステップでユーザ指定タスクを解決する。重要なことは、これらのLSMは、望ましい結果を達成するために得られたフィードバックに世代を根ざす必要がある。本稿では,コード合成の領域における実行フィードバックを活用するためのモデルのエンドツーエンド強化学習手法を提案する。我々は競合プログラミングのタスクをベンチマークし、小さな(8Bパラメータ)と大きな(70B)の両方のモデルで新しい最先端の成果を得ると同時に、桁違いに必要とされるサンプルの量を削減します。提案手法は,複数のステップにまたがる自動フィードバックを効果的に活用するLLMを生成することを示す。

関連論文リスト

Teaming LLMs to Detect and Mitigate Hallucinations [0.0]
単一モデル整合性の拡張は幻覚検出と緩和能力を大幅に向上させる可能性が示唆された。私たちは、この"コンソーシアム一貫性"アプローチを、15のモデルチームのプールから多くのモデルチームにわたって評価します。
論文参考訳（メタデータ） (2025-10-22T12:03:43Z)
LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文参考訳（メタデータ） (2025-02-14T17:12:20Z)
From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文参考訳（メタデータ） (2024-12-19T02:21:41Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文参考訳（メタデータ） (2024-07-01T17:53:35Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は、人間の命令を理解し、コードを生成するのに優れた性能を示した。我々は,ITERTLという,シンプルながら効果的な反復訓練パラダイムを導入する。提案手法によってトレーニングされたモデルは、最先端のオープンソースモデル(SOTA)と競合し、さらに優れていることを示す。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文参考訳（メタデータ） (2023-05-22T15:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。