Fugu-MT 論文翻訳(概要): Debug Smarter, Not Harder: AI Agents for Error Resolution in Computational Notebooks

論文の概要: Debug Smarter, Not Harder: AI Agents for Error Resolution in Computational Notebooks

arxiv url: http://arxiv.org/abs/2410.14393v1
Date: Fri, 18 Oct 2024 11:55:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.449033
Title: Debug Smarter, Not Harder: AI Agents for Error Resolution in Computational Notebooks
Title（参考訳）: デバッグがより賢く、難しくはない - 計算ノートのエラー解決のためのAIエージェント
Authors: Konstantin Grotov, Artem Borzilov, Maksim Krivobok, Timofey Bryksin, Yaroslav Zharov,
Abstract要約: 計算ノートブックのエラー解決に特化して設計されたAIエージェントを提案する。我々はそれと対話してノートブック環境を探索できるエージェントシステムを開発した。コストの比較とユーザスタディの実施により,既存のシングルアクションソリューションに対するアプローチを評価した。
参考スコア（独自算出の注目度）: 4.025358960630117
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computational notebooks became indispensable tools for research-related development, offering unprecedented interactivity and flexibility in the development process. However, these benefits come at the cost of reproducibility and an increased potential for bugs. With the rise of code-fluent Large Language Models empowered with agentic techniques, smart bug-fixing tools with a high level of autonomy have emerged. However, those tools are tuned for classical script programming and still struggle with non-linear computational notebooks. In this paper, we present an AI agent designed specifically for error resolution in a computational notebook. We have developed an agentic system capable of exploring a notebook environment by interacting with it -- similar to how a user would -- and integrated the system into the JetBrains service for collaborative data science called Datalore. We evaluate our approach against the pre-existing single-action solution by comparing costs and conducting a user study. Users rate the error resolution capabilities of the agentic system higher but experience difficulties with UI. We share the results of the study and consider them valuable for further improving user-agent collaboration.
Abstract（参考訳）: 計算ノートは研究関連の開発に欠かせないツールとなり、開発プロセスにおいて前代未聞の対話性と柔軟性を提供した。しかし、これらの利点は再現可能性のコストとバグの可能性を増大させます。エージェント技術で強化されたコード流大言語モデルの台頭により、高度な自律性を備えたスマートバグ修正ツールが出現した。しかし、これらのツールは古典的なスクリプトプログラミング用に調整されており、いまだに非線形の計算ノートブックに苦戦している。本稿では,コンピュータノートブックのエラー解決に特化して設計されたAIエージェントを提案する。我々は、ユーザと同じようにノートブック環境を操作してノートブック環境を探索できるエージェントシステムを開発し、データロアと呼ばれるコラボレーティブデータサイエンスのためにJetBrainsサービスに統合した。コストの比較とユーザスタディの実施により,既存のシングルアクションソリューションに対するアプローチを評価した。ユーザはエージェントシステムのエラー解決能力を高く評価するが、UIでは困難を経験する。調査の結果を共有し、ユーザとエージェントのコラボレーションをさらに改善する上で価値があると考えている。

関連論文リスト

Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use [4.437184840125514]
本稿ではエージェントAIにおける従来の単一エージェントシステムの限界を克服する新しいファクターエージェントアーキテクチャを提案する。提案手法はエージェントを,(1)高レベルプランナーおよびインコンテキスト学習者として機能する大規模言語モデル,(2)ツールフォーマットと出力の記憶器として機能する小型言語モデルに分解する。経験的評価により,本アーキテクチャは,テキスト内学習と静的記憶のトレードオフを解明しつつ,計画精度と誤り回復性を著しく向上することが示された。
論文参考訳（メタデータ） (2025-03-29T01:27:11Z)
Evolving the Computational Notebook: A Two-Dimensional Canvas for Enhanced Human-AI Interaction [0.0]
Computational Canvasは、ノートブックを進化させ、データ分析とAI支援開発を強化する新しい2次元インタフェースである。我々は、自由に配置可能なコードセル、別々の環境、出力管理の改善など、重要な機能を紹介します。
論文参考訳（メタデータ） (2025-03-21T09:29:05Z)
Evaluating Software Development Agents: Patch Patterns, Code Quality, and Issue Complexity in Real-World GitHub Scenarios [13.949319911378826]
この調査は、500の現実のGitHubイシューで上位10のエージェントから4,892のパッチを評価した。一人のエージェントが支配的であり、170の問題が未解決であり、改善の余地があった。ほとんどのエージェントはコードの信頼性とセキュリティを維持し、新しいバグや脆弱性を避けた。一部のエージェントはコードの複雑さを増し、多くの重複を減らし、コードの臭いを最小限にした。
論文参考訳（メタデータ） (2024-10-16T11:33:57Z)
GenAgent: Build Collaborative AI Systems with Automated Workflow Generation -- Case Studies on ComfyUI [64.57616646552869]
本稿では、モデル、データソース、パイプラインを統合し、複雑で多様なタスクを解決するためにパフォーマンスを向上させるために使用される協調AIシステムについて検討する。我々は、LLMベースのフレームワークであるGenAgentを紹介した。その結果、GenAgentは実行レベルおよびタスクレベルの評価においてベースラインアプローチよりも優れていた。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
Employing Artificial Intelligence to Steer Exascale Workflows with Colmena [37.42013214123005]
Colmenaは、アプリケーションがどのようにイベントに反応するかを一連の協調エージェントとして定義することを可能にする。エクサスケールシステムにアプリケーションをデプロイしている間に克服した課題と、AIによって強化された科学について説明する。私たちのビジョンは、Colmenaが科学コンピューティングの多くの領域でAIを活用する創造的なソリューションを刺激することです。
論文参考訳（メタデータ） (2024-08-26T17:21:19Z)
Scaling Large Language Model-based Multi-Agent Collaboration [72.8998796426346]
近年の大規模言語モデル駆動型自律エージェントのブレークスルーにより、複数エージェントのコラボレーションが集団的推論を通じて各個人を上回ることが判明している。本研究は、協調剤の連続的な添加が同様の利益をもたらすかどうかを考察する。
論文参考訳（メタデータ） (2024-06-11T11:02:04Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
Untangling Knots: Leveraging LLM for Error Resolution in Computational Notebooks [4.318590074766604]
本稿では,反復型LCMエージェントを用いて,計算ノートブックの誤りを解消するための潜在的解決策を提案する。本稿では,本手法によって提起された問題について議論し,バグを含む新しい計算ノートブックのデータセットを共有する。
論文参考訳（メタデータ） (2024-03-26T18:53:17Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2023-06-20T09:55:10Z)
Generation Probabilities Are Not Enough: Uncertainty Highlighting in AI Code Completions [54.55334589363247]
本研究では,不確実性に関する情報を伝達することで,プログラマがより迅速かつ正確にコードを生成することができるかどうかを検討する。トークンのハイライトは、編集される可能性が最も高いので、タスクの完了が早くなり、よりターゲットを絞った編集が可能になることがわかりました。
論文参考訳（メタデータ） (2023-02-14T18:43:34Z)
Natural Language to Code Generation in Interactive Data Science Notebooks [35.621936471322385]
データサイエンスノートブックのパンダスデータ分析フレームワークを用いて1082のコード生成問題のベンチマークであるARCADEを構築した。我々は,Python 計算ノートブック用の 62B コード言語モデル PaChiNCo を開発した。
論文参考訳（メタデータ） (2022-12-19T05:06:00Z)
Agents for Automated User Experience Testing [4.6453787256723365]
自動UXテストのためのエージェントベースのアプローチを提案する。我々は,基本問題解決スキルと中核的影響モデルを備えたエージェントを開発した。この研究はまだ原始的な状態にあるが、この結果が知的エージェントの使用に強く影響していると我々は信じている。
論文参考訳（メタデータ） (2021-04-13T14:13:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。