論文の概要: Harnessing Pre-trained Generalist Agents for Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2312.15536v1
- Date: Sun, 24 Dec 2023 18:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:38:53.658124
- Title: Harnessing Pre-trained Generalist Agents for Software Engineering Tasks
- Title(参考訳): ソフトウェアエンジニアリングタスクのための事前訓練されたジェネリストエージェントのハーネス
- Authors: Paulina Stevia Nouwou Mindom, Amin Nikanjam, Foutse Khomh
- Abstract要約: 深層強化学習(DRL)は、ゲームテストやジョブショップスケジューリング問題の解決といった複雑なタスクの自動化に成功している。
専門のDRLエージェントは、他のタスクへの一般化性の欠如に悩まされており、効果的に開発および再訓練するためのかなりの時間を必要としている。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
- 参考スコア(独自算出の注目度): 13.733085206098258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, we are witnessing an increasing adoption of Artificial Intelligence
(AI) to develop techniques aimed at improving the reliability, effectiveness,
and overall quality of software systems. Deep reinforcement learning (DRL) has
recently been successfully used for automation in complex tasks such as game
testing and solving the job-shop scheduling problem. However, these specialized
DRL agents, trained from scratch on specific tasks, suffer from a lack of
generalizability to other tasks and they need substantial time to be developed
and re-trained effectively. Recently, DRL researchers have begun to develop
generalist agents, able to learn a policy from various environments and capable
of achieving performances similar to or better than specialist agents in new
tasks. In the Natural Language Processing or Computer Vision domain, these
generalist agents are showing promising adaptation capabilities to
never-before-seen tasks after a light fine-tuning phase and achieving high
performance. This paper investigates the potential of generalist agents for
solving SE tasks. Specifically, we conduct an empirical study aimed at
assessing the performance of two generalist agents on two important SE tasks:
the detection of bugs in games (for two games) and the minimization of makespan
in a scheduling task, to solve the job-shop scheduling problem (for two
instances). Our results show that the generalist agents outperform the
specialist agents with very little effort for fine-tuning, achieving a 20%
reduction of the makespan over specialized agent performance on task-based
scheduling. In the context of game testing, some generalist agent
configurations detect 85% more bugs than the specialist agents. Building on our
analysis, we provide recommendations for researchers and practitioners looking
to select generalist agents for SE tasks, to ensure that they perform
effectively.
- Abstract(参考訳): 今日では、ソフトウェアシステムの信頼性、有効性、全体的な品質を改善する技術を開発するために、人工知能(AI)の採用が増えているのを目撃しています。
深層強化学習(DRL)は近年,ゲームテストやジョブショップスケジューリング問題の解決など,複雑なタスクの自動化に成功している。
しかし、これらの特殊なDRLエージェントは、特定のタスクをスクラッチから訓練し、他のタスクへの一般化性の欠如に悩まされ、開発と再訓練にかなりの時間を要する。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
自然言語処理やコンピュータビジョンの分野では、これらの汎用エージェントは、軽微調整フェーズの後、予期しないタスクへの適応能力を示し、ハイパフォーマンスを実現している。
本稿では,SEタスクを解く汎用エージェントの可能性を検討する。
具体的には,2つのSEタスクにおける2つのジェネラリストエージェントの性能評価を目的とした実証的研究を行い,ゲーム中のバグの検出(2ゲーム)とスケジューリングタスクにおけるメースパンの最小化を行い,ジョブショップスケジューリング問題(2インスタンス)を解決する。
以上の結果から,ジェネラリストエージェントは,タスクベーススケジューリングにおける特殊エージェントの性能よりも,メイスパンを20%削減することに成功した。
ゲームテストの文脈では、一部のジェネラリストエージェント構成がスペシャリストエージェントよりも85%多いバグを検出する。
本分析に基づいて,SEタスクのジェネラリストエージェントの選択を希望する研究者や実践者に対して,効果的に実行できるように推奨する。
関連論文リスト
- ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。
本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。
結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文 参考訳(メタデータ) (2024-10-29T21:38:42Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
本稿では,高速なタスク分解とアロケーションプロセスを活用するマルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークを提案する。
提案フレームワークにフィードバックループを組み込んで,そのような問題解決プロセスの有効性と堅牢性をさらに向上させる。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。
エージェントの精度を高速かつ並列に測定する評価システムを提案する。
最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文 参考訳(メタデータ) (2024-09-17T17:13:19Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。