論文の概要: Selecting Source Code Generation Tools Based on Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2312.12813v1
- Date: Wed, 20 Dec 2023 07:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:24:26.512559
- Title: Selecting Source Code Generation Tools Based on Bandit Algorithms
- Title(参考訳): Banditアルゴリズムに基づくソースコード生成ツールの選択
- Authors: Ryoto Shima, Masateru Tsunoda, Yukasa Murakami, Akito Monden, Amjed
Tahir, Kwabena Ebo Bennin, Koji Toda, Keitaro Nakasai
- Abstract要約: 我々は,最適なコード生成ツールの選択を支援するために,B bandit algorithm (BA) アプローチを適用した。
評価が進むにつれて, ChatGPT が最高のツールとして選択された。
- 参考スコア(独自算出の注目度): 1.655352281097533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Background: Recently, code generation tools such as ChatGPT have drawn
attention to their performance. Generally, a prior analysis of their
performance is needed to select new code-generation tools from a list of
candidates. Without such analysis, there is a higher risk of selecting an
ineffective tool, negatively affecting software development productivity.
Additionally, conducting prior analysis of new code generation tools takes time
and effort. Aim: To use a new code generation tool without prior analysis but
with low risk, we propose to evaluate the new tools during software development
(i.e., online optimization). Method: We apply the bandit algorithm (BA)
approach to help select the best code-generation tool among candidates.
Developers evaluate whether the result of the tool is correct or not. When code
generation and evaluation are repeated, the evaluation results are saved. We
utilize the stored evaluation results to select the best tool based on the BA
approach. Our preliminary analysis evaluated five code generation tools with
164 code generation cases using BA. Result: The BA approach selected ChatGPT as
the best tool as the evaluation proceeded, and during the evaluation, the
average accuracy by the BA approach outperformed the second-best performing
tool. Our results reveal the feasibility and effectiveness of BA in assisting
the selection of best-performing code generation tools.
- Abstract(参考訳): 背景: 最近、ChatGPTのようなコード生成ツールがパフォーマンスに注目を集めています。
一般に、候補リストから新しいコード生成ツールを選択するには、パフォーマンスの事前分析が必要である。
このような分析がなければ、非効率的なツールを選択するリスクが高くなり、ソフトウェア開発の生産性に悪影響を及ぼす。
さらに、新しいコード生成ツールの事前分析を行うには、時間と労力を要する。
目的:事前分析なしに新しいコード生成ツールを使うが、リスクが低く、ソフトウェア開発(すなわちオンライン最適化)中に新しいツールを評価することを提案する。
方法:banditアルゴリズム(ba)アプローチを適用し,候補間の最適なコード生成ツールの選択を支援する。
開発者は、ツールの結果が正しいかどうかを評価する。
コード生成と評価を繰り返した場合には、評価結果を保存する。
保存された評価結果を利用して,baアプローチに基づいて最適なツールを選択する。
予備分析により,baを用いた5つのコード生成ツールと164のコード生成ケースを評価した。
結果: baアプローチは評価が進むにつれてchatgptを最良のツールとして選択し,評価中,baアプローチによる平均精度が2番目に優れたツールとなった。
その結果,最も優れたコード生成ツールの選択を支援するbaの実現可能性と有効性が明らかになった。
関連論文リスト
- PTR: Precision-Driven Tool Recommendation for Large Language Models [43.53494041932615]
大規模言語モデル(LLM)のためのPTR(Precision-driven Tool Recommendation)アプローチを提案する。
PTRは、過去のツールバンドルの利用を利用して、初期的かつ簡潔なツールセットをキャプチャし、ツールマッチングを実行することで、ツールセットを動的に調整する。
LLMのツールレコメンデーションの有効性を評価するために,新しいデータセットRecToolsとメトリクスTRACCを提案する。
論文 参考訳(メタデータ) (2024-11-14T17:33:36Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - Efficient and Scalable Estimation of Tool Representations in Vector Space [34.767193045989515]
ツール検索のための合成データを生成するためのフレームワークと,小型エンコーダモデルを用いた効率的なデータ駆動型ツール検索戦略を提案する。
ToolBankは、実際のユーザ利用を反映した、新しいツール検索データセットです。
これらの新しい方法により、ToolBenchデータセット上のRecall@Kで最大27.28、ToolBank上のRecall@Kで30.5の改善を実現しています。
論文 参考訳(メタデータ) (2024-09-02T19:39:24Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Query Routing for Homogeneous Tools: An Instantiation in the RAG Scenario [62.615210194004106]
ツール学習に関する現在の研究は、主に様々な選択肢から最も効果的なツールを選択することに焦点を当てており、しばしば費用対効果を見落としている。
本稿では,タスクの達成に必要な性能と関連するコストの両方を予測し,同種ツールの選択に対処する。
論文 参考訳(メタデータ) (2024-06-18T09:24:09Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - TOOLVERIFIER: Generalization to New Tools via Self-Verification [69.85190990517184]
本稿では,ツール選択中にコントラスト質問を自己問合せすることで,近接候補を識別する自己検証手法を提案する。
ToolBenchベンチマークによる4つのタスクの実験では、17の見えないツールで構成されており、数ショットのベースラインよりも平均22%改善されている。
論文 参考訳(メタデータ) (2024-02-21T22:41:38Z) - User Centric Evaluation of Code Generation Tools [2.8115477071897788]
本稿では,大規模言語モデル(LLM)のユーザビリティを評価するために,ユーザ中心の手法を提案する。
ベンチマークのテストケースにメタデータが含まれており、その使用を記述し、LLMの使用を模倣する多段階的なプロセスでテストを実行し、ユーザビリティを反映した品質属性セットに基づいてLLM生成ソリューションを測定し、ツールとしてLLMを使用する際のユーザエクスペリエンスに基づいたパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-02-05T15:56:19Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - A Comprehensive Study on Quality Assurance Tools for Java [15.255117038871337]
品質保証(QA)ツールはますます注目を集めており、開発者に広く利用されている。
既存の研究は以下の方法で制限されている。
彼らは、スキャニングルール分析を考慮せずにツールを比較します。
研究方法論とベンチマークデータセットのため、ツールの有効性については意見が一致していない。
時間性能の分析に関する大規模な研究は行われていない。
論文 参考訳(メタデータ) (2023-05-26T10:48:02Z) - APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning [31.252979262232124]
我々は,長文の数値推論フレームワークを改善するためにAPOLLOを提案する。
検索者に対しては,検索者が重要な数値的事実に対してより識別しやすくするために,無認識の負のサンプリング戦略を採用する。
ジェネレータに対しては、一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。
論文 参考訳(メタデータ) (2022-12-14T14:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。