論文の概要: State and Memory is All You Need for Robust and Reliable AI Agents
- arxiv url: http://arxiv.org/abs/2507.00081v1
- Date: Mon, 30 Jun 2025 02:02:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:58.334778
- Title: State and Memory is All You Need for Robust and Reliable AI Agents
- Title(参考訳): 頑丈で信頼性の高いAIエージェントに必要なのは、ステートとメモリだけだ
- Authors: Matthew Muhoberac, Atharva Parikh, Nirvi Vakharia, Saniya Virani, Aco Radujevic, Savannah Wood, Meghav Verma, Dimitri Metaxotos, Jeyaraman Soundararajan, Thierry Masquelin, Alexander G. Godfrey, Sean Gardner, Dobrila Rudnicki, Sam Michael, Gaurav Chopra,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
- 参考スコア(独自算出の注目度): 29.259008600842517
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have enabled powerful advances in natural language understanding and generation. Yet their application to complex, real-world scientific workflows remain limited by challenges in memory, planning, and tool integration. Here, we introduce SciBORG (Scientific Bespoke Artificial Intelligence Agents Optimized for Research Goals), a modular agentic framework that allows LLM-based agents to autonomously plan, reason, and achieve robust and reliable domain-specific task execution. Agents are constructed dynamically from source code documentation and augmented with finite-state automata (FSA) memory, enabling persistent state tracking and context-aware decision-making. This approach eliminates the need for manual prompt engineering and allows for robust, scalable deployment across diverse applications via maintaining context across extended workflows and to recover from tool or execution failures. We validate SciBORG through integration with both physical and virtual hardware, such as microwave synthesizers for executing user-specified reactions, with context-aware decision making and demonstrate its use in autonomous multi-step bioassay retrieval from the PubChem database utilizing multi-step planning, reasoning, agent-to-agent communication and coordination for execution of exploratory tasks. Systematic benchmarking shows that SciBORG agents achieve reliable execution, adaptive planning, and interpretable state transitions. Our results show that memory and state awareness are critical enablers of agentic planning and reliability, offering a generalizable foundation for deploying AI agents in complex environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学ワークフローへの応用は、メモリ、計画、ツール統合の課題によって制限されている。
SciBORG(SciBORG:Scientific Bespoke Artificial Intelligence Agents Optimized for Research Goals)は、LLMをベースとしたエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現するためのモジュール型エージェントフレームワークである。
エージェントはソースコードのドキュメンテーションから動的に構築され、有限状態オートマトン(FSA)メモリで拡張される。
このアプローチは、手動のプロンプトエンジニアリングの必要性を排除し、拡張ワークフロー間のコンテキストを維持し、ツールや実行障害から回復することで、さまざまなアプリケーションにまたがる堅牢でスケーラブルなデプロイメントを可能にする。
我々は,SciBORGを,ユーザ特定反応を実行するマイクロ波シンセサイザーなどの物理ハードウェアおよび仮想ハードウェアと統合して検証し,多段階計画,推論,エージェント・ツー・エージェント通信,探索タスクの実行のためのコーディネートを利用したPubChemデータベースからの自律的多段階バイオアッセイ検索に利用することを証明する。
システムベンチマークは、SciBORGエージェントが信頼できる実行、適応計画、解釈可能な状態遷移を実現することを示している。
我々の結果は、メモリと状態の認識がエージェント計画と信頼性の重要な実現要因であることを示し、複雑な環境にAIエージェントをデプロイするための一般化可能な基盤を提供する。
関連論文リスト
- The Auton Agentic AI Framework [5.410458076724158]
人工知能の分野では、ジェネレーティブAIからエージェントAIへの移行が進行中である。
大規模言語モデル(LLM)は構造化されていない出力を生成するが、それらが制御しなければならないバックエンドインフラストラクチャは決定論的でスキーマに適合する入力を必要とする。
本稿では,自律エージェントの作成,作成,管理を行うための原則アーキテクチャであるAuton Agentic AI Frameworkについて述べる。
論文 参考訳(メタデータ) (2026-02-27T06:42:08Z) - El Agente Gráfico: Structured Execution Graphs for Scientific Agents [7.47895130442454]
タイプセーフな実行環境内に,大規模言語モデル(LLM)による意思決定を組み込んだ単一エージェントフレームワークであるEl Agente Grficoを紹介する。
我々のアプローチの中心は、科学概念の構造化された抽象化と、型付きPythonオブジェクトとして計算状態を表すオブジェクトグラフマッパーである。
大学レベルの量子化学タスクのスイートにまたがって,自動ベンチマークフレームワークを開発することにより,システムの評価を行う。
論文 参考訳(メタデータ) (2026-02-19T23:47:05Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios [0.9069311779417014]
本稿では,実体験に基づくエージェントフレームワークを提案する。
Jenius-Agentという名前のエンドツーエンドフレームワークは、3つの重要な最適化と統合されている。
実験によると、タスクの精度が20%向上し、トークンコストが削減され、レスポンスレイテンシが低下し、起動障害が発生している。
論文 参考訳(メタデータ) (2026-01-05T07:35:12Z) - Synthesizing Procedural Memory: Challenges and Architectures in Automated Workflow Generation [0.5599792629509229]
本稿では、受動的ツールユーザからアクティブなワークフローアーキテクトへの移行を運用する。
エージェントは仮説、調査、コードの科学的方法論を強制することによって、堅牢で生産レベルのコードスキルを自律的に書けることを実証する。
論文 参考訳(メタデータ) (2025-12-23T11:33:32Z) - An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - VerifyLLM: LLM-Based Pre-Execution Task Plan Verification for Robots [44.99833362998488]
本研究では,シミュレータや実環境で実行する前に,タスクプランを自動的に検証するアーキテクチャを提案する。
このモジュールは、Large Language Modelsの推論機能を使用して、論理的一貫性を評価し、計画の潜在的なギャップを特定する。
我々は,タスク計画の信頼性と効率の向上に寄与し,自律システムにおける堅牢な事前実行検証の必要性に対処する。
論文 参考訳(メタデータ) (2025-07-07T15:31:36Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems [2.2810745411557316]
IntellAgentは、対話型AIシステムを評価するためのスケーラブルでオープンソースのフレームワークである。
IntellAgentは、ポリシー駆動グラフモデリング、リアルイベント生成、対話型ユーザエージェントシミュレーションを組み合わせることで、合成ベンチマークの作成を自動化する。
我々の研究は、IntellAgentが、研究と展開の橋渡しの課題に対処することで、会話AIを前進させるための効果的なフレームワークであることを示した。
論文 参考訳(メタデータ) (2025-01-19T14:58:35Z) - Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [0.8463972278020965]
大規模言語モデル(LLM)は、人間のようなテキスト生成や自然言語理解を可能にすることによって、人工知能(AI)に革命をもたらした。
Retrieval Augmented Generation (RAG) がソリューションとして登場し、リアルタイムデータ検索を統合して文脈に関連のある応答を提供することでLLMを強化している。
Agentic Retrieval-Augmented Generation (RAG)は、自律的なAIエージェントをRAGパイプラインに埋め込むことによって、これらの制限を超越する。
論文 参考訳(メタデータ) (2025-01-15T20:40:25Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Ask-before-Plan: Proactive Language Agents for Real-World Planning [68.08024918064503]
プロアクティブエージェントプランニングでは、ユーザエージェントの会話とエージェント環境のインタラクションに基づいて、言語エージェントが明確化のニーズを予測する必要がある。
本稿では,明確化,実行,計画の3つのエージェントからなる新しいマルチエージェントフレームワーク,Clarification-Execution-Planning(textttCEP)を提案する。
論文 参考訳(メタデータ) (2024-06-18T14:07:28Z) - RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。
RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。
9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T09:30:02Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Realistic simulation of users for IT systems in cyber ranges [63.20765930558542]
ユーザアクティビティを生成するために,外部エージェントを用いて各マシンを計測する。
このエージェントは、決定論的および深層学習に基づく手法を組み合わせて、異なる環境に適応する。
また,会話や文書の作成を容易にする条件付きテキスト生成モデルを提案する。
論文 参考訳(メタデータ) (2021-11-23T10:53:29Z) - Modular approach to data preprocessing in ALOHA and application to a
smart industry use case [0.0]
データ前処理と変換パイプラインをサポートするために、ALOHAツールフローに統合されたモジュラーアプローチに対処する。
提案手法の有効性を示すために,キーワードスポッティングのユースケースに関する実験結果を示す。
論文 参考訳(メタデータ) (2021-02-02T06:48:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。