論文の概要: Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution
- arxiv url: http://arxiv.org/abs/2605.28607v1
- Date: Wed, 27 May 2026 15:23:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.164014
- Title: Adaptive Multimodal Agents-Based Framework for Automatic Workflow Execution
- Title(参考訳): 自動ワークフロー実行のための適応型マルチモーダルエージェントベースフレームワーク
- Authors: Susanna Cifani, Mario Luca Bernardi, Marta Cimitile,
- Abstract要約: 本稿では,異なる2相パイプラインによる自動ワークフロー実行を実現するための,新しいマルチエージェントフレームワークを提案する。
推論の間、エージェントはこの固定された事前確立されたグラフに対して適応検索拡張生成(RAG)を利用する。
実世界の文脈でフレームワークを検証し、限られたトレーニングデータであっても高い信頼性とセマンティックな認識を維持する能力を示す。
- 参考スコア(独自算出の注目度): 1.2132786136735432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern information systems require autonomous agents capable of navigating complex workflows, yet current methodologies often struggle with the transition from structured metadata parsing to general environmental perception. While the integration of MLLMs has enabled agents to interact directly with GUIs, existing approaches typically treat task sequences as discrete, linear episodes. This fragmentation prevents agents from capturing the underlying transition topology, limiting their effectiveness in novel or non-stationary scenarios. To address this, we propose a novel multimodal multi-agent framework that achieves automatic workflow execution through a distinct two-phase pipeline. First, during an offline discovery phase, the architecture adaptively constructs a topological knowledge base from fragmented execution logs. During inference, agents leverage Adaptive Retrieval-Augmented Generation (RAG) over this fixed, pre-established graph, coupled with a closed-loop collaborative verification protocol to dynamically self-correct and navigate. This graph-based approach facilitates superior task decomposition and adaptive navigation performance. We validate our framework in a real-world context, demonstrating its ability to maintain high reliability and semantic awareness even with limited training data.
- Abstract(参考訳): 現代の情報システムは複雑なワークフローをナビゲートできる自律エージェントを必要とするが、現在の方法論は構造化メタデータ解析から一般的な環境認識への移行にしばしば苦労する。
MLLMの統合によりエージェントはGUIと直接対話できるようになったが、既存のアプローチではタスクシーケンスを離散的な線形エピソードとして扱うのが一般的である。
この断片化は、エージェントが基礎となる遷移トポロジを捕捉することを防ぎ、新しいシナリオや非定常シナリオにおけるその効果を制限する。
そこで本研究では,異なる2相パイプラインによる自動ワークフロー実行を実現する,新しいマルチモーダルマルチエージェントフレームワークを提案する。
まず、オフラインの発見フェーズにおいて、アーキテクチャは断片化された実行ログからトポロジ的知識ベースを適応的に構築する。
推論の間、エージェントはこの固定された事前確立されたグラフに適応検索拡張生成(RAG)を活用し、クローズドループの共同検証プロトコルと組み合わせて動的に自己修正とナビゲートを行う。
このグラフベースのアプローチは、優れたタスク分解と適応ナビゲーション性能を実現する。
実世界の文脈でフレームワークを検証し、限られたトレーニングデータであっても高い信頼性とセマンティックな認識を維持する能力を示す。
関連論文リスト
- Step-level Optimization for Efficient Computer-use Agents [51.29573359027217]
我々は、強力なコンピュータ利用エージェントは、実際は高価で遅いと論じている。
本稿では,コンピュータ利用エージェントのためのイベント駆動ステップレベルカスケードを提案する。
論文 参考訳(メタデータ) (2026-04-29T19:59:36Z) - MetaGen: Self-Evolving Roles and Topologies for Multi-Agent LLM Reasoning [11.023742160114763]
推論時に役割空間とコラボレーショントポロジの両方を適応させる、トレーニング不要のフレームワークであるMetaGenを紹介します。
MetaGenは、強力なマルチエージェントベースラインに対する精度とコストのトレードオフを改善する。
論文 参考訳(メタデータ) (2026-01-27T07:24:35Z) - OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - Dynamic Generation of Multi-LLM Agents Communication Topologies with Graph Diffusion Models [99.85131798240808]
我々はtextitGuided Topology Diffusion (GTD) と呼ばれる新しい生成フレームワークを導入する。
条件付き離散グラフ拡散モデルにインスパイアされたGTD式は、反復的な構成過程としてトポロジー合成を行う。
各ステップで生成は、多目的報酬を予測する軽量プロキシモデルによって制御される。
実験により、GTDは高いタスク適応性、スパース、効率的な通信トポロジを生成できることが示されている。
論文 参考訳(メタデータ) (2025-10-09T05:28:28Z) - HiVA: Self-organized Hierarchical Variable Agent via Goal-driven Semantic-Topological Evolution [13.440964262446558]
HiVA(Hierarchical Variable Agent)は、セマンティック・トポロジカル・エボリューション(STEV)アルゴリズムを用いて、自己組織化グラフとしてエージェントをモデル化する新しいフレームワークである。
対話、コーディング、Longcontext Q&A、数学、エージェントベンチマークの実験では、タスク精度が5~10%向上し、リソース効率が向上した。
論文 参考訳(メタデータ) (2025-08-29T18:51:18Z) - ToolACE-MT: Non-Autoregressive Generation for Agentic Multi-Turn Interaction [84.90394416593624]
大規模言語モデル(LLM)によるエージェント的タスク解決には,多ターン・マルチステップインタラクションが必要である。
既存のシミュレーションベースのデータ生成手法は、複数のエージェント間のコストのかかる自己回帰的相互作用に大きく依存している。
本稿では,高品質なマルチターンエージェント対話を構築するための非自己回帰反復生成フレームワークであるToolACE-MTを提案する。
論文 参考訳(メタデータ) (2025-08-18T07:38:23Z) - HAWK: A Hierarchical Workflow Framework for Multi-Agent Collaboration [3.2588674134593942]
マルチエージェントシステムは、クロスプラットフォームの相互運用性、動的タスクスケジューリング、効率的なリソース共有において永続的な課題に直面している。
階層型エージェント (Hawk) は, ユーザ, オペレータ, エージェント, リソースの5つのレイヤから構成され, 16の標準化インターフェースでサポートされているモジュール型フレームワークである。
Hawkはタスク解析、ワークフローオーケストレーション、インテリジェントスケジューリング、リソース呼び出し、データ同期をカバーしたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2025-07-05T15:03:53Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。