Fugu-MT 論文翻訳(概要): SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow

論文の概要: SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow

arxiv url: http://arxiv.org/abs/2504.08696v2
Date: Mon, 14 Apr 2025 16:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 12:06:14.79029
Title: SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow
Title（参考訳）: SeaView: ワークフロー強化のためのソフトウェアエンジニアリングエージェントのビジュアルインターフェース
Authors: Timothy Bula, Saurabh Pujar, Luca Buratti, Mihaela Bornea, Avirup Sil,
Abstract要約: 筆者らは,SWEエージェントの研究者が実験を可視化し,検査するのを支援することを目的とした,拡張エンジニアリングのためのソフトウェアエージェントビジュアルインタフェースであるSeaViewを提案する。ユーザー調査によると、経験豊富な研究者はSeaViewが提供する情報収集に10分から30分かかり、経験の浅い研究者は実験の診断に30分から1時間かかります。
参考スコア（独自算出の注目度）: 12.272141550412064
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Auto-regressive LLM-based software engineering (SWE) agents, henceforth SWE agents, have made tremendous progress (>60% on SWE-Bench Verified) on real-world coding challenges including GitHub issue resolution. SWE agents use a combination of reasoning, environment interaction and self-reflection to resolve issues thereby generating "trajectories". Analysis of SWE agent trajectories is difficult, not only as they exceed LLM sequence length (sometimes, greater than 128k) but also because it involves a relatively prolonged interaction between an LLM and the environment managed by the agent. In case of an agent error, it can be hard to decipher, locate and understand its scope. Similarly, it can be hard to track improvements or regression over multiple runs or experiments. While a lot of research has gone into making these SWE agents reach state-of-the-art, much less focus has been put into creating tools to help analyze and visualize agent output. We propose a novel tool called SeaView: Software Engineering Agent Visual Interface for Enhanced Workflow, with a vision to assist SWE-agent researchers to visualize and inspect their experiments. SeaView's novel mechanisms help compare experimental runs with varying hyper-parameters or LLMs, and quickly get an understanding of LLM or environment related problems. Based on our user study, experienced researchers spend between 10 and 30 minutes to gather the information provided by SeaView, while researchers with little experience can spend between 30 minutes to 1 hour to diagnose their experiment.
Abstract（参考訳）: 自動回帰LDMベースのソフトウェアエンジニアリング(SWE)エージェント、すなわちSWEエージェントは、GitHubのイシュー解決を含む現実のコーディング課題に関して、非常に進歩した(SWE-Bench Verifiedの60%)。 SWEエージェントは推論、環境相互作用、自己回帰の組み合わせを使用して問題を解決し、「軌道」を生成する。 SWEエージェントの軌道解析は、LSM配列長(時には128k以上)を超えるだけでなく、LSMとエージェントが管理する環境との相互作用が比較的長いため困難である。エージェントエラーの場合、そのスコープを解読、発見、理解することは困難である。同様に、複数の実行や実験に対する改善や回帰を追跡するのは難しいかもしれません。これらのSWEエージェントを最先端に到達させる研究は数多く行われているが、エージェントのアウトプットを分析し視覚化するツールの開発にはあまり注力していない。そこで我々は,SWE-agent の研究者が実験を視覚化し,検査するのを支援することを目的とした,ソフトウェアエンジニアリングエージェントの Visual Interface for Enhanced Workflow という新しいツールを提案する。 SeaViewの新しいメカニズムは、実験的な実行と様々なハイパーパラメータやLLMを比較し、LLMや環境に関する問題に対する理解を素早く得るのに役立つ。ユーザー調査によると、経験豊富な研究者はSeaViewが提供する情報収集に10分から30分かかり、経験の浅い研究者は実験の診断に30分から1時間かかります。

関連論文リスト

AgentStepper: Interactive Debugging of Software Development Agents [14.265317773238529]
本稿では,ソフトウェアエンジニアリングエージェントのための対話型デバッガであるAgentStepperを紹介する。 AgentStepperは、LLM、エージェントプログラム、ツール間の構造化された会話としてトラジェクトリを表す。ブレークポイント、ステップワイズ実行、プロンプトとツール呼び出しのライブ編集、中間リポジトリレベルのコード変更のキャプチャと表示をサポートする。
論文参考訳（メタデータ） (2026-02-06T10:44:09Z)
AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
AgentGit: A Version Control Framework for Reliable and Scalable LLM-Powered Multi-Agent Systems [7.408263799616532]
AgentGitはGitライクなロールバックとブランチをマルチエージェントシステム(MAS)にもたらすフレームワークです。 AgentGitは冗長、ランタイム、トークンの使用を著しく削減し、複数のブランチをまたいだ並列探索をサポートしています。この作業は、より堅牢なMAS設計への実践的なパスを提供し、コラボレーティブAIシステムにおけるエラー回復、安全な探索、計算、A/Bテストを可能にする。
論文参考訳（メタデータ） (2025-11-01T17:11:31Z)
DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。 LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文参考訳（メタデータ） (2025-10-24T16:24:01Z)
Scaling Synthetic Task Generation for Agents via Exploration [67.70129766322985]
対話型エージェントを構築するための訓練後のマルチモーダル大言語モデル(MLLM)は、コンピュータ利用、Webナビゲーション、ロボット工学といった分野にまたがる約束を守る。タスク生成のための既存のアプローチは、ダウンストリーム環境情報に制限のある人間のアノテーションやMLLMのプロンプトに大きく依存している。本稿では,タスク生成のためのスケーラブルなパイプラインであるAutoPlayについて紹介する。
論文参考訳（メタデータ） (2025-09-29T17:00:02Z)
SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [43.74003959397812]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文参考訳（メタデータ） (2025-08-04T05:51:55Z)
AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。 AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。 AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文参考訳（メタデータ） (2025-08-02T01:43:39Z)
From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-24T15:39:20Z)
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文参考訳（メタデータ） (2025-05-26T18:01:00Z)
DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。 DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文参考訳（メタデータ） (2025-03-10T08:32:33Z)
PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-02-20T05:41:55Z)
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文参考訳（メタデータ） (2024-12-18T18:55:40Z)
Agentless: Demystifying LLM-based Software Engineering Agents [12.19683999553113]
Agentless - ソフトウェア開発の問題を自動解決するためのエージェントレスアプローチです。 Agentlessはエージェントベースのアプローチの冗長で複雑な設定と比較すると、ローカライゼーション、修復、パッチ検証の3フェーズプロセスをシンプルに採用している。人気の高いSWE-bench Liteベンチマークの結果から、Agentlessは驚くほど高いパフォーマンスと低コストを達成できることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:24:45Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。 AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。 SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。
論文参考訳（メタデータ） (2024-04-08T11:55:09Z)
More Agents Is All You Need [16.372072265248192]
単にサンプリング・アンド・投票方式によって,大規模言語モデル(LLM)の性能は,エージェントの数がインスタンス化されるに従ってスケールすることがわかった。
論文参考訳（メタデータ） (2024-02-03T05:55:24Z)
GitAgent: Facilitating Autonomous Agent with GitHub by Tool Extension [81.44231422624055]
さまざまなタスクを実行できる外部ツールを備えた大規模言語モデル(LLM)に焦点が当てられている。本稿では,GitHubから自動ツール拡張を実現するエージェントであるGitAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文参考訳（メタデータ） (2023-12-28T13:50:42Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。 LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文参考訳（メタデータ） (2023-06-06T11:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。