論文の概要: Patched RTC: evaluating LLMs for diverse software development tasks
- arxiv url: http://arxiv.org/abs/2407.16557v1
- Date: Tue, 23 Jul 2024 15:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 16:45:46.285364
- Title: Patched RTC: evaluating LLMs for diverse software development tasks
- Title(参考訳): Patched RTC: 多様なソフトウェア開発タスクのためのLCMの評価
- Authors: Asankhaya Sharma,
- Abstract要約: 本稿では,Large Language Models (LLM) の新たな評価手法であるPatched Round-Trip Correctness (Patched RTC)を紹介する。
Patched RTCは、人間の介入なしにモデルの応答の一貫性と堅牢性を測定する、自己評価フレームワークを提供する。
GPT-3.5とGPT-4を異なるソフトウェア開発タスクで比較した結果、Patched RTCはモデルの性能とタスクの難易度を効果的に区別することがわかった。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Patched Round-Trip Correctness (Patched RTC), a novel evaluation technique for Large Language Models (LLMs) applied to diverse software development tasks, particularly focusing on "outer loop" activities such as bug fixing, code review, and documentation updates. Patched RTC extends the original Round-Trip Correctness method to work with any LLM and downstream task, offering a self-evaluating framework that measures consistency and robustness of model responses without human intervention. The study demonstrates a correlation between Patched RTC scores and task-specific accuracy metrics, presenting it as an alternative to the LLM-as-Judge paradigm for open-domain task evaluation. We implement Patched RTC in an open-source framework called patchwork, allowing for transparent evaluation during inference across various patchflows. Experiments comparing GPT-3.5 and GPT-4 models across different software development tasks reveal that Patched RTC effectively distinguishes model performance and task difficulty. The paper also explores the impact of consistency prompts on improving model accuracy, suggesting that Patched RTC can guide prompt refinement and model selection for complex software development workflows.
- Abstract(参考訳): 本稿では,多種多様なソフトウェア開発タスクに適用された大規模言語モデル(LLM)の新たな評価手法であるPatched Round-Trip Correctness (Patched RTC)を紹介する。
Patched RTCは、オリジナルのラウンドトリップ補正手法を拡張して、LLMおよびダウンストリームタスクで作業し、人間の介入なしにモデルの応答の一貫性と堅牢性を測定する自己評価フレームワークを提供する。
本研究は、オープンドメインタスク評価におけるLLM-as-Judgeパラダイムの代替として、Patched RTCスコアとタスク固有の精度指標の相関を示す。
パッチワークと呼ばれるオープンソースのフレームワークにPatched RTCを実装し、さまざまなパッチフローをまたいだ推論中に透過的な評価を可能にする。
GPT-3.5とGPT-4を異なるソフトウェア開発タスクで比較した結果、Patched RTCはモデルの性能とタスクの難易度を効果的に区別することがわかった。
さらに,一貫性の促進がモデル精度の向上に与える影響についても検討し,Patched RTCが複雑なソフトウェア開発ワークフローの迅速な改善とモデル選択を導出できることを示唆した。
関連論文リスト
- Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - When LLM-based Code Generation Meets the Software Development Process [50.82665351100067]
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LLMエージェントは、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
我々は,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - Heuristic Algorithm-based Action Masking Reinforcement Learning (HAAM-RL) with Ensemble Inference Method [0.0]
本稿では,HAAMRL(Huristic ensemble-based Action Masking Reinforcement Learning)と呼ばれる新しい強化学習手法を提案する。
提案手法は, 複雑な製造プロセスの最適化において, 優れた性能と性能の一般化を示す。
論文 参考訳(メタデータ) (2024-03-21T03:42:39Z) - Unsupervised Evaluation of Code LLMs with Round-Trip Correctness [25.557158930295465]
代替評価法としてラウンドトリップ正当性(RTC)を導入する。
RTCはモデルに予測を依頼できるという考えに基づいている。
コード合成と編集の評価にRTCを用いる方法を示す。
論文 参考訳(メタデータ) (2024-02-13T11:08:08Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Assessing and Improving Syntactic Adversarial Robustness of Pre-trained
Models for Code Translation [19.186392871168064]
CoTRはCoTR-AとCoTR-Dの2つのコンポーネントから構成される。
CoTRの有効性は、実世界のJavaからPythonのデータセットの実験を通じて評価される。
論文 参考訳(メタデータ) (2023-10-28T04:35:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - Balancing Average and Worst-case Accuracy in Multitask Learning [39.59582055620513]
本稿では、分散ロバスト最適化(DRO)の手法を用いて、マルチタスク学習における最悪の性能を改善する方法について述べる。
これらの問題を緩和する改良されたLookahead-DRO(L-DRO)を提案する。
実験の結果,L-DROは計算オーバーヘッドが少なく,平均値と最悪の値とのトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2021-10-12T09:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。