論文の概要: Debug Smarter, Not Harder: AI Agents for Error Resolution in Computational Notebooks
- arxiv url: http://arxiv.org/abs/2410.14393v1
- Date: Fri, 18 Oct 2024 11:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:26:28.779828
- Title: Debug Smarter, Not Harder: AI Agents for Error Resolution in Computational Notebooks
- Title(参考訳): デバッグがより賢く、難しくはない - 計算ノートのエラー解決のためのAIエージェント
- Authors: Konstantin Grotov, Artem Borzilov, Maksim Krivobok, Timofey Bryksin, Yaroslav Zharov,
- Abstract要約: 計算ノートブックのエラー解決に特化して設計されたAIエージェントを提案する。
我々はそれと対話してノートブック環境を探索できるエージェントシステムを開発した。
コストの比較とユーザスタディの実施により,既存のシングルアクションソリューションに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 4.025358960630117
- License:
- Abstract: Computational notebooks became indispensable tools for research-related development, offering unprecedented interactivity and flexibility in the development process. However, these benefits come at the cost of reproducibility and an increased potential for bugs. With the rise of code-fluent Large Language Models empowered with agentic techniques, smart bug-fixing tools with a high level of autonomy have emerged. However, those tools are tuned for classical script programming and still struggle with non-linear computational notebooks. In this paper, we present an AI agent designed specifically for error resolution in a computational notebook. We have developed an agentic system capable of exploring a notebook environment by interacting with it -- similar to how a user would -- and integrated the system into the JetBrains service for collaborative data science called Datalore. We evaluate our approach against the pre-existing single-action solution by comparing costs and conducting a user study. Users rate the error resolution capabilities of the agentic system higher but experience difficulties with UI. We share the results of the study and consider them valuable for further improving user-agent collaboration.
- Abstract(参考訳): 計算ノートは研究関連の開発に欠かせないツールとなり、開発プロセスにおいて前代未聞の対話性と柔軟性を提供した。
しかし、これらの利点は再現可能性のコストとバグの可能性を増大させます。
エージェント技術で強化されたコード流大言語モデルの台頭により、高度な自律性を備えたスマートバグ修正ツールが出現した。
しかし、これらのツールは古典的なスクリプトプログラミング用に調整されており、いまだに非線形の計算ノートブックに苦戦している。
本稿では,コンピュータノートブックのエラー解決に特化して設計されたAIエージェントを提案する。
我々は、ユーザと同じようにノートブック環境を操作してノートブック環境を探索できるエージェントシステムを開発し、データロアと呼ばれるコラボレーティブデータサイエンスのためにJetBrainsサービスに統合した。
コストの比較とユーザスタディの実施により,既存のシングルアクションソリューションに対するアプローチを評価した。
ユーザはエージェントシステムのエラー解決能力を高く評価するが、UIでは困難を経験する。
調査の結果を共有し、ユーザとエージェントのコラボレーションをさらに改善する上で価値があると考えている。
関連論文リスト
- Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。
一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。
ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。
一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文 参考訳(メタデータ) (2024-10-16T11:33:57Z) - GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。
我々は、LLMベースのフレームワークであるGenAgentを紹介した。
その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Employing Artificial Intelligence to Steer Exascale Workflows with Colmena [37.42013214123005]
Colmenaは、アプリケーションがどのようにイベントに反応するかを一連の協調エージェントとして定義することを可能にする。
エクサスケールシステムにアプリケーションをデプロイしている間に克服した課題と、AIによって強化された科学について説明する。
私たちのビジョンは、Colmenaが科学コンピューティングの多くの領域でAIを活用する創造的なソリューションを刺激することです。
論文 参考訳(メタデータ) (2024-08-26T17:21:19Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - Untangling Knots: Leveraging LLM for Error Resolution in Computational Notebooks [4.318590074766604]
本稿では,反復型LCMエージェントを用いて,計算ノートブックの誤りを解消するための潜在的解決策を提案する。
本稿では,本手法によって提起された問題について議論し,バグを含む新しい計算ノートブックのデータセットを共有する。
論文 参考訳(メタデータ) (2024-03-26T18:53:17Z) - Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。
複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-20T09:55:10Z) - Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。
トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文 参考訳(メタデータ) (2023-02-14T18:43:34Z) - Natural Language to Code Generation in Interactive Data Science
Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。
我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文 参考訳(メタデータ) (2022-12-19T05:06:00Z) - Agents for Automated User Experience Testing [4.6453787256723365]
自動UXテストのためのエージェントベースのアプローチを提案する。
我々は,基本問題解決スキルと中核的影響モデルを備えたエージェントを開発した。
この研究はまだ原始的な状態にあるが、この結果が知的エージェントの使用に強く影響していると我々は信じている。
論文 参考訳(メタデータ) (2021-04-13T14:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。