Fugu-MT 論文翻訳(概要): AuPair: Golden Example Pairs for Code Repair

論文の概要: AuPair: Golden Example Pairs for Code Repair

arxiv url: http://arxiv.org/abs/2502.18487v1
Date: Wed, 12 Feb 2025 11:07:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-02 20:17:19.86369
Title: AuPair: Golden Example Pairs for Code Repair
Title（参考訳）: AuPair: コード修復のための黄金の例
Authors: Aditi Mavalankar, Hassan Mansoor, Zita Marinho, Masha Samsikova, Tom Schaul,
Abstract要約: 追加の推論時間計算の恩恵を受ける重要なタスクは自己修復である。我々は、大規模言語モデルのコンテキスト内学習能力を活用して、コーディング領域で自己修復を行う。我々のアルゴリズムは、ベスト・オブ・N$やセルフ・リペアに比べて性能が大幅に向上する。
参考スコア（独自算出の注目度）: 6.185615518131808
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling up inference-time compute has proven to be a valuable strategy in improving the performance of Large Language Models (LLMs) without fine-tuning. An important task that can benefit from additional inference-time compute is self-repair; given an initial flawed response, or guess, the LLM corrects its own mistake and produces an improved response, or fix. We leverage the in-context learning ability of LLMs to perform self-repair in the coding domain. The key contribution of our paper is an approach that synthesises and selects an ordered set of golden example pairs, or AuPairs, of these initial guesses and subsequent fixes for the corresponding problems. Each such AuPair is provided as a single in-context example at inference time to generate a repaired solution. For an inference-time compute budget of $N$ LLM calls per problem, $N$ AuPairs are used to generate $N$ repaired solutions, out of which the highest-scoring solution is selected as the final answer. The underlying intuition is that if the LLM is given a different example of fixing an incorrect guess each time, it can subsequently generate a diverse set of repaired solutions. Our algorithm selects these AuPairs in a manner that maximises complementarity and usefulness. We demonstrate the results of our algorithm on 5 LLMs across 7 competitive programming datasets for the code repair task. Our algorithm yields a significant boost in performance compared to best-of-$N$ and self-repair, and also exhibits strong generalisation across datasets and models. Moreover, our approach shows significantly stronger scaling with inference-time compute budget compared to baselines.
Abstract（参考訳）: 推論時間計算のスケールアップは、微調整なしでLLM(Large Language Models)の性能を向上させる上で、貴重な戦略であることが証明されている。追加の推論時間計算の恩恵を受ける重要なタスクは自己修復であり、初期欠陥のある応答や推測が与えられた場合、LLMは自身の誤りを修正し、改善された応答を生成するか、修正する。我々は、LLMのコンテキスト内学習能力を活用して、コーディング領域における自己修復を行う。本稿の重要な貢献は、これらの初期推測とそれに伴う問題に対する修正の順序付けられた黄金の例対(AuPairs)を合成し、選択するアプローチである。このようなAuPairは、推論時に単一のインコンテキストの例として提供され、修正されたソリューションを生成する。推論時の計算予算が1問題当たり$N$ LLM コールの場合、$N$ AuPairs は$N$ 修復されたソリューションを生成するために使用され、その中で最高スコアのソリューションが最終回答として選択される。根底にある直観は、LLM が毎回不正確な推測を修正する別の例を与えられると、その後、様々な修正された解を生成できるということである。提案アルゴリズムは,これらのAuPairを相補性と有用性を最大化する方法で選択する。コード修復作業のための7つの競合プログラミングデータセットの5つのLLMに対して,本アルゴリズムの結果を実演する。我々のアルゴリズムは、ベスト・オブ・N$やセルフ・リペアに比べてパフォーマンスが大幅に向上し、データセットやモデルにまたがる強力な一般化も示している。さらに,本手法は,ベースラインと比較して,推定時間計算予算によるスケーリングが有意に大きいことを示す。

関連論文リスト

Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models [23.37504394417425]
HIA(Heuristic-Guided Inference-time Alignment)は,軽量プロンプトを用いたチューニング不要でブラックボックス互換のアプローチである。 HIAは1つまたは2つの応答クエリの少ない低推論予算下で有効であることが判明した。
論文参考訳（メタデータ） (2025-08-07T08:54:27Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
Adaptive Resolving Methods for Reinforcement Learning with Function Approximations [4.168629519090361]
本稿では,関数近似を用いた強化学習問題の解法を提案する。我々のアルゴリズムは線形プログラミング(LP)の再構成に基づいており、新たなデータ到着によって改善された各LPを解消する。 O(1/sqrtN)$ the worst-case guarantee established in the previous literature, our instance-dependent guarantee is tight than the underlying instance is favorable。
論文参考訳（メタデータ） (2025-05-17T14:59:15Z)
Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment [54.787826863212146]
推論時間計算は、言語モデルのパフォーマンスをスケールするための強力な軸を提供する。我々は, (i) 応答品質, (ii) 計算量の観点から, 推論時アライメントアルゴリズムの性能を解析する。我々は$textttInferenceTimePessimism$を紹介した。これは推論時間計算の故意使用を通じて報酬ハッキングを緩和する新しいアルゴリズムである。
論文参考訳（メタデータ） (2025-03-27T18:00:08Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
LLMs as Probabilistic Minimally Adequate Teachers for DFA Learning [11.037017229299607]
大規模言語モデル(LLM)におけるインテリジェンス(インテリジェンス)の出現は、オートマチックラーニングへの統合に関する調査にインスピレーションを与えている。本稿では,pMAT (probabilistic Minimally Adequate Teacher) の定式化について紹介する。我々は,解答精度を向上し,学習したオートマタの正確性を確保する技術を開発した。
論文参考訳（メタデータ） (2024-08-06T07:12:09Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Improving Large Language Model Fine-tuning for Solving Math Problems [20.417053742869403]
大きな言語モデルのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがある。挑戦的なMATHデータセットを用いて3つの微調整戦略を検討する。我々は、微調整されたPaLM 2-Lモデルを用いて、MATHデータセット上で約58.8%の精度が得られる微調整レシピを設計する。
論文参考訳（メタデータ） (2023-10-16T04:11:19Z)
Learning to Reformulate for Linear Programming [11.628932152805724]
本稿では,リニアプログラミング(LP)の強化学習に基づく再構成手法を提案する。本研究では,2つの公共研究用LPデータセットと,実運用シナリオから収集した大規模LPデータセットに対して提案手法を実装した。
論文参考訳（メタデータ） (2022-01-17T04:58:46Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。