論文の概要: Harnessing Pre-trained Generalist Agents for Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2312.15536v1
- Date: Sun, 24 Dec 2023 18:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:38:53.658124
- Title: Harnessing Pre-trained Generalist Agents for Software Engineering Tasks
- Title(参考訳): ソフトウェアエンジニアリングタスクのための事前訓練されたジェネリストエージェントのハーネス
- Authors: Paulina Stevia Nouwou Mindom, Amin Nikanjam, Foutse Khomh
- Abstract要約: 深層強化学習(DRL)は、ゲームテストやジョブショップスケジューリング問題の解決といった複雑なタスクの自動化に成功している。
専門のDRLエージェントは、他のタスクへの一般化性の欠如に悩まされており、効果的に開発および再訓練するためのかなりの時間を必要としている。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
- 参考スコア(独自算出の注目度): 13.733085206098258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nowadays, we are witnessing an increasing adoption of Artificial Intelligence
(AI) to develop techniques aimed at improving the reliability, effectiveness,
and overall quality of software systems. Deep reinforcement learning (DRL) has
recently been successfully used for automation in complex tasks such as game
testing and solving the job-shop scheduling problem. However, these specialized
DRL agents, trained from scratch on specific tasks, suffer from a lack of
generalizability to other tasks and they need substantial time to be developed
and re-trained effectively. Recently, DRL researchers have begun to develop
generalist agents, able to learn a policy from various environments and capable
of achieving performances similar to or better than specialist agents in new
tasks. In the Natural Language Processing or Computer Vision domain, these
generalist agents are showing promising adaptation capabilities to
never-before-seen tasks after a light fine-tuning phase and achieving high
performance. This paper investigates the potential of generalist agents for
solving SE tasks. Specifically, we conduct an empirical study aimed at
assessing the performance of two generalist agents on two important SE tasks:
the detection of bugs in games (for two games) and the minimization of makespan
in a scheduling task, to solve the job-shop scheduling problem (for two
instances). Our results show that the generalist agents outperform the
specialist agents with very little effort for fine-tuning, achieving a 20%
reduction of the makespan over specialized agent performance on task-based
scheduling. In the context of game testing, some generalist agent
configurations detect 85% more bugs than the specialist agents. Building on our
analysis, we provide recommendations for researchers and practitioners looking
to select generalist agents for SE tasks, to ensure that they perform
effectively.
- Abstract(参考訳): 今日では、ソフトウェアシステムの信頼性、有効性、全体的な品質を改善する技術を開発するために、人工知能(AI)の採用が増えているのを目撃しています。
深層強化学習(DRL)は近年,ゲームテストやジョブショップスケジューリング問題の解決など,複雑なタスクの自動化に成功している。
しかし、これらの特殊なDRLエージェントは、特定のタスクをスクラッチから訓練し、他のタスクへの一般化性の欠如に悩まされ、開発と再訓練にかなりの時間を要する。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
自然言語処理やコンピュータビジョンの分野では、これらの汎用エージェントは、軽微調整フェーズの後、予期しないタスクへの適応能力を示し、ハイパフォーマンスを実現している。
本稿では,SEタスクを解く汎用エージェントの可能性を検討する。
具体的には,2つのSEタスクにおける2つのジェネラリストエージェントの性能評価を目的とした実証的研究を行い,ゲーム中のバグの検出(2ゲーム)とスケジューリングタスクにおけるメースパンの最小化を行い,ジョブショップスケジューリング問題(2インスタンス)を解決する。
以上の結果から,ジェネラリストエージェントは,タスクベーススケジューリングにおける特殊エージェントの性能よりも,メイスパンを20%削減することに成功した。
ゲームテストの文脈では、一部のジェネラリストエージェント構成がスペシャリストエージェントよりも85%多いバグを検出する。
本分析に基づいて,SEタスクのジェネラリストエージェントの選択を希望する研究者や実践者に対して,効果的に実行できるように推奨する。
関連論文リスト
- RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Trying AGAIN instead of Trying Longer: Prior Learning for Automatic
Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。
そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。
本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文 参考訳(メタデータ) (2020-04-07T07:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。