Fugu-MT 論文翻訳(概要): Synthesizing Procedural Memory: Challenges and Architectures in Automated Workflow Generation

論文の概要: Synthesizing Procedural Memory: Challenges and Architectures in Automated Workflow Generation

arxiv url: http://arxiv.org/abs/2512.20278v1
Date: Tue, 23 Dec 2025 11:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-24 19:17:49.851008
Title: Synthesizing Procedural Memory: Challenges and Architectures in Automated Workflow Generation
Title（参考訳）: 手続き記憶の合成 - ワークフローの自動生成における課題とアーキテクチャ
Authors: Nishant Gaurav, Adit Akarsh, Ankit Ranjan, Manoj Bajaj,
Abstract要約: 本稿では、受動的ツールユーザからアクティブなワークフローアーキテクトへの移行を運用する。エージェントは仮説、調査、コードの科学的方法論を強制することによって、堅牢で生産レベルのコードスキルを自律的に書けることを実証する。
参考スコア（独自算出の注目度）: 0.5599792629509229
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While CodeMem establishes executable code as the optimal representation for agentic procedural memory, the mechanism for autonomously synthesizing this memory from a blank slate remains underexplored. This paper operationalizes the transition of Large Language Models from passive tool-users to active workflow architects. Through a high-fidelity case study of a cross-service orchestration task involving Outlook and OneDrive, we identify and address four structural bottlenecks in automated skill generation: the Discovery Gap involving navigation of large tool registries, the Verification Gap regarding grounding tool response structures, the Decomposition Gap which replaces inefficient search with Linear State Anchoring, and the Scaling Gap focused on concurrency and persistence. We demonstrate that by enforcing a scientific methodology of hypothesize, probe, and code, agents can autonomously write robust, production-grade code skills.
Abstract（参考訳）: CodeMemは、エージェントプロシージャメモリの最適な表現として実行可能なコードを確立しているが、このメモリを空白のスレートから自律的に合成するメカニズムはいまだ解明されていない。本稿では、受動的ツールユーザからアクティブなワークフローアーキテクトへの移行を運用する。 OutlookとOneDriveを含むクロスサービスオーケストレーションタスクの高忠実なケーススタディを通じて、自動スキル生成における4つの構造的ボトルネックを特定し、対処する: 大きなツールレジストリのナビゲーションを含むディスカバリギャップ、接地ツール応答構造に関する検証ギャップ、非効率的な検索を線形状態アンカリングで置き換える分解ギャップ、並行性と永続性に焦点を当てたスケーリングギャップ。エージェントは仮説、探索、コードという科学的方法論を強制することによって、堅牢で生産レベルのコードスキルを自律的に書けることを実証する。

関連論文リスト

El Agente Gráfico: Structured Execution Graphs for Scientific Agents [7.47895130442454]
タイプセーフな実行環境内に,大規模言語モデル(LLM)による意思決定を組み込んだ単一エージェントフレームワークであるEl Agente Grficoを紹介する。我々のアプローチの中心は、科学概念の構造化された抽象化と、型付きPythonオブジェクトとして計算状態を表すオブジェクトグラフマッパーである。大学レベルの量子化学タスクのスイートにまたがって,自動ベンチマークフレームワークを開発することにより,システムの評価を行う。
論文参考訳（メタデータ） (2026-02-19T23:47:05Z)
EmboCoach-Bench: Benchmarking AI Agents on Developing Embodied Robots [68.29056647487519]
Embodied AIは、高忠実度シミュレーションと大規模データ収集によって実現されている。しかし、このスケーリング能力は、労働集約的な手作業の監視に依存しているため、いまだにボトルネックになっている。実装ポリシーを自律的に構築するための LLM エージェントの能力を評価するベンチマークである textscEmboCoach-Bench を紹介する。
論文参考訳（メタデータ） (2026-01-29T11:33:49Z)
Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。 BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文参考訳（メタデータ） (2025-12-20T12:06:13Z)
Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文参考訳（メタデータ） (2025-12-18T08:38:44Z)
Seismology modeling agent: A smart assistant for geophysical researchers [14.28965530601497]
本稿では,Large Language Models (LLM) を利用したインテリジェントな対話型ワークフローを提案する。 SPECFEMのための最初のモデルコンテキストプロトコル(MCP)サーバスイートを紹介する。このフレームワークは、完全な自動実行とHuman-in-the-loopコラボレーションの両方をサポートする。
論文参考訳（メタデータ） (2025-12-16T14:18:26Z)
Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文参考訳（メタデータ） (2025-12-02T18:42:26Z)
ScaleCall -- Agentic Tool Calling at Scale for Fintech: Challenges, Methods, and Deployment Insights [0.18643247155980827]
大きな言語モデル(LLM)は、ツール呼び出しにおいて優れ、ツールセットのような規制されたエンタープライズ環境にこれらの機能をデプロイする。本稿では,Mastercard内のツールコールフレームワークであるScaleCallの開発と展開を通じて,企業環境におけるツール検索手法の総合的研究を行う。
論文参考訳（メタデータ） (2025-10-29T14:35:46Z)
HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5～10%向上し、リソース効率が向上した。
論文参考訳（メタデータ） (2025-08-29T18:51:18Z)
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文参考訳（メタデータ） (2025-08-12T09:45:19Z)
State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文参考訳（メタデータ） (2025-06-30T02:02:35Z)
ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文参考訳（メタデータ） (2025-02-17T03:42:28Z)
ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。 ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。 ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文参考訳（メタデータ） (2024-09-02T17:44:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。