Fugu-MT 論文翻訳(概要): debug-gym: A Text-Based Environment for Interactive Debugging

論文の概要: debug-gym: A Text-Based Environment for Interactive Debugging

arxiv url: http://arxiv.org/abs/2503.21557v1
Date: Thu, 27 Mar 2025 14:43:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 18:49:11.566927
Title: debug-gym: A Text-Based Environment for Interactive Debugging
Title（参考訳）: debugging-gym:インタラクティブデバッグのためのテキストベースの環境
Authors: Xingdi Yuan, Morgane M Moss, Charbel El Feghali, Chinmay Singh, Darya Moldavskaya, Drew MacPhee, Lucas Caccia, Matheus Pereira, Minseon Kim, Alessandro Sordoni, Marc-Alexandre Côté,
Abstract要約: 大規模言語モデル(LLM)は、コーディングタスクにますます依存している。 LLMは、タスクに関連する情報を集めるために対話的にAを探索する能力の恩恵を受けることができると仮定する。対話型符号化環境において,LLMベースのエージェントを開発するためのテキスト環境,すなわちデバッグジャムを提案する。
参考スコア（独自算出の注目度）: 55.11603087371956
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly relied upon for coding tasks, yet in most scenarios it is assumed that all relevant information can be either accessed in context or matches their training data. We posit that LLMs can benefit from the ability to interactively explore a codebase to gather the information relevant to their task. To achieve this, we present a textual environment, namely debug-gym, for developing LLM-based agents in an interactive coding setting. Our environment is lightweight and provides a preset of useful tools, such as a Python debugger (pdb), designed to facilitate an LLM-based agent's interactive debugging. Beyond coding and debugging tasks, this approach can be generalized to other tasks that would benefit from information-seeking behavior by an LLM agent.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コーディングタスクにますます頼りになっているが、ほとんどのシナリオでは、関連するすべての情報にコンテキストでアクセスするか、トレーニングデータと一致させることができると仮定されている。 LLMは、コードベースをインタラクティブに探索し、タスクに関連する情報を収集する能力の恩恵を受けることができると仮定する。そこで本研究では,LLMベースのエージェントを対話型符号化環境で開発するためのテキスト環境,すなわちデバッグジャムを提案する。我々の環境は軽量であり、LLMベースのエージェントのインタラクティブデバッグを容易にするように設計されたPythonデバッガ(pdb)のような便利なツールのプリセットを提供する。コーディングやデバッギングのタスク以外にも、このアプローチはLLMエージェントによる情報探索の振る舞いの恩恵を受ける他のタスクに一般化することができる。

関連論文リスト

Spatio-Temporal LLM: Reasoning about Environments and Actions [6.224087801093545]
MLLMは、全体論的時間的理解を必要とするプロンプトに正しく答えるのに依然として苦労していることを示す。環境の空間的理解と最近の観測の時間的理解を両立させるプロジェクタを備えたモデル「s-temporal LLM」(LLM)を開発した。
論文参考訳（メタデータ） (2025-07-07T17:59:55Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Codellm-Devkit: A Framework for Contextualizing Code LLMs with Program Analysis Insights [9.414198519543564]
codellm-devkit (以下, CLDK') は,プログラム解析のプロセスを大幅に単純化したオープンソースライブラリである。 CLDKは開発者に対して直感的でユーザフレンドリなインターフェースを提供しています。
論文参考訳（メタデータ） (2024-10-16T20:05:59Z)
Bug In the Code Stack: Can LLMs Find Bugs in Large Python Code Stacks [1.3586572110652484]
本研究では,大規模文書から文脈情報を取得する上でのLLM(Large Language Models)の機能について検討する。我々のベンチマークであるBug In The Code Stack (BICS)は、大規模なソースコード内の単純な構文バグを識別するLLMの能力を評価するために設計されている。その結果,(1)検索タスクのテキストベースの環境に比べ,コードベースの環境の方が有意に困難であり,(2)異なるモデル間の性能差が大きく,(3)コンテキスト長と性能劣化との間には顕著な相関関係があることが判明した。
論文参考訳（メタデータ） (2024-06-21T17:37:10Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
AGILE: A Novel Reinforcement Learning Framework of LLM Agents [7.982249117182315]
本稿では,ユーザとの複雑な対話処理を実現するために,LLMエージェントの強化学習フレームワークを提案する。エージェントは、リフレクション、ツールの使用、専門家の相談など、会話以外の能力を持っている。実験の結果, PPOで訓練した7Bおよび13B LLMをベースとしたAGILEは, GPT-4エージェントより優れていた。
論文参考訳（メタデータ） (2024-05-23T16:17:44Z)
Middleware for LLMs: Tools Are Instrumental for Language Agents in Complex Environments [35.670330583914904]
大規模言語モデル(LLM)は、複雑な環境で動作可能な汎用エージェントとして構想されている。このような複雑性に対処する上で,LSMを増強する新しいツールのクラスを導入する。 2つの代表的な複雑な環境 -- 知識ベース(KB)とデータベース -- において、ツールで言語エージェントを増強する大きな可能性を実証する。
論文参考訳（メタデータ） (2024-02-22T16:18:07Z)
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文参考訳（メタデータ） (2024-01-16T14:33:09Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)
Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文参考訳（メタデータ） (2023-04-17T09:27:40Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。