Fugu-MT 論文翻訳(概要): Software Engineering Agents for Embodied Controller Generation : A Study in Minigrid Environments

論文の概要: Software Engineering Agents for Embodied Controller Generation : A Study in Minigrid Environments

arxiv url: http://arxiv.org/abs/2510.21902v1
Date: Fri, 24 Oct 2025 16:04:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:14.698774
Title: Software Engineering Agents for Embodied Controller Generation : A Study in Minigrid Environments
Title（参考訳）: 身体制御器生成のためのソフトウェア工学エージェント : ミニグリッド環境における検討
Authors: Timothé Boulet, Xavier Hinaut, Clément Moulin-Frier,
Abstract要約: ソフトウェアエンジニアリングエージェント(SWE-Agents)は、アクセス可能な従来のソフトウェアエンジニアリングタスクに有効であることが証明されている。本稿では,SWE-Agents を具体化タスクのためのコントローラ生成に拡張した最初の評価法を提案する。
参考スコア（独自算出の注目度）: 3.415592919976024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software Engineering Agents (SWE-Agents) have proven effective for traditional software engineering tasks with accessible codebases, but their performance for embodied tasks requiring well-designed information discovery remains unexplored. We present the first extended evaluation of SWE-Agents on controller generation for embodied tasks, adapting Mini-SWE-Agent (MSWEA) to solve 20 diverse embodied tasks from the Minigrid environment. Our experiments compare agent performance across different information access conditions: with and without environment source code access, and with varying capabilities for interactive exploration. We quantify how different information access levels affect SWE-Agent performance for embodied tasks and analyze the relative importance of static code analysis versus dynamic exploration for task solving. This work establishes controller generation for embodied tasks as a crucial evaluation domain for SWE-Agents and provides baseline results for future research in efficient reasoning systems.
Abstract（参考訳）: ソフトウェアエンジニアリングエージェント(SWE-Agents)は、アクセス可能なコードベースを持つ従来のソフトウェアエンジニアリングタスクに有効であることが証明されている。我々は,Mini-SWE-Agent (MSWEA) を用いて,Minigrid環境から20種類の多種多様な実施タスクを解くことで,SWE-Agentの制御系生成に関する最初の拡張評価を行った。実験では,異なる情報アクセス条件 – 環境ソースコードのアクセスの有無,インタラクティブな探索機能 – のエージェント性能を比較した。本研究では,タスクのSWE-Agent性能に異なる情報アクセスレベルがどう影響するかを定量化し,静的コード解析とタスク解決の動的探索の相対的重要性を解析する。本研究は、SWE-Agentsの重要な評価領域として、具体化されたタスクのためのコントローラ生成を確立し、効率的な推論システムにおける将来の研究のためのベースライン結果を提供する。

関連論文リスト

AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。 Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文参考訳（メタデータ） (2026-02-06T16:45:02Z)
MEnvAgent: Scalable Polyglot Environment Construction for Verifiable Software Engineering [54.236614097082395]
本稿では,自動環境構築のためのフレームワークであるMEnvAgentを紹介する。 MEnvAgentは、建設失敗を自律的に解決するマルチエージェント計画実行検証アーキテクチャを採用している。 MEnvData-SWEは,これまでで最大の,現実的な検証可能なDocker環境のポリグロットデータセットである。
論文参考訳（メタデータ） (2026-01-30T11:36:10Z)
Training Versatile Coding Agents in Synthetic Environments [44.5849223659282]
環境と軌道を生成する新しいパイプラインであるSWE-Playgroundを紹介する。 SWE-Playgroundは、強力な言語モデルとエージェントでゼロからプロジェクトとタスクを合成する。これにより、ユニットテストを生成したり、スクラッチからライブラリを実装することで、問題の再現など、より広範なコーディングタスクに取り組むことができます。
論文参考訳（メタデータ） (2025-12-13T07:02:28Z)
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use [101.57043903478257]
アイアンマンの架空のJ.A.R.V.I.Sほど有能で多用途なAIアシスタントを作る夢は、長い間想像力に恵まれてきた。マルチモーダル(multi-modal)な大きな言語モデル((M)LLMs)の進化により、この夢は現実に近づいている。本調査は,OSエージェント研究の現状を整理し,学術調査と産業開発の両方の指針を提供する。
論文参考訳（メタデータ） (2025-08-06T14:33:45Z)
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents [34.16732444158405]
LLMベースのエージェントは、SWE(Software Engineering)タスクの増加に期待できる能力を示している。高品質なトレーニングデータは、特に現実世界のSWEシナリオを反映したデータが少ない。既存のデータセットはワンショットのコード生成に限られるか、小さな手作業による対話的なタスクのコレクションで構成されている。
論文参考訳（メタデータ） (2025-05-26T18:01:00Z)
Agent S: An Open Agentic Framework that Uses Computers Like a Human [31.16046798529319]
我々は、GUI(Graphical User Interface)を通じてコンピュータとの自律的なインタラクションを可能にするオープンエージェントフレームワークであるAgent Sを提案する。 Agent Sは、ドメイン固有の知識の取得、長いタスクの水平線の計画、動的で一様でないインターフェイスの処理という、コンピュータタスクの自動化における3つの重要な課題に対処することを目指している。
論文参考訳（メタデータ） (2024-10-10T17:43:51Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)
RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。 RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。 9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-06-11T09:30:02Z)
SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。 SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文参考訳（メタデータ） (2024-05-06T17:41:33Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。