論文の概要: MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning
- arxiv url: http://arxiv.org/abs/2601.19204v1
- Date: Tue, 27 Jan 2026 05:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.183581
- Title: MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning
- Title(参考訳): MATA:マルチエージェントビジュアル推論のためのトレーニング可能な階層型オートマトンシステム
- Authors: Zhixi Cai, Fucai Ke, Kevin Leo, Sukai Huang, Maria Garcia de la Banda, Peter J. Stuckey, Hamid Rezatofighi,
- Abstract要約: 視覚推論のための階層型有限状態オートマトンであるMATA(Multi-Agent Hierarchical Trainable Automaton)を導入する。
各エージェントはハイパーオートマトンの状態に対応し、信頼性の高いマイクロ制御のための小さなルールベースのサブオートマトンを実行する。
ハイパーエージェントの遷移ポリシーを監督するために、トランジション・トラジェクトリ・ツリーを構築し、メモリ・ツー・ネスト状態のペアに変換する。
遷移ポリシとしての微調整LDMは、エージェントのクエリとキャパシティを理解し、タスクを解決するための最適なエージェントを効率的に選択することができる。
- 参考スコア(独自算出の注目度): 25.542847753356043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent vision-language models have strong perceptual ability but their implicit reasoning is hard to explain and easily generates hallucinations on complex queries. Compositional methods improve interpretability, but most rely on a single agent or hand-crafted pipeline and cannot decide when to collaborate across complementary agents or compete among overlapping ones. We introduce MATA (Multi-Agent hierarchical Trainable Automaton), a multi-agent system presented as a hierarchical finite-state automaton for visual reasoning whose top-level transitions are chosen by a trainable hyper agent. Each agent corresponds to a state in the hyper automaton, and runs a small rule-based sub-automaton for reliable micro-control. All agents read and write a shared memory, yielding transparent execution history. To supervise the hyper agent's transition policy, we build transition-trajectory trees and transform to memory-to-next-state pairs, forming the MATA-SFT-90K dataset for supervised finetuning (SFT). The finetuned LLM as the transition policy understands the query and the capacity of agents, and it can efficiently choose the optimal agent to solve the task. Across multiple visual reasoning benchmarks, MATA achieves the state-of-the-art results compared with monolithic and compositional baselines. The code and dataset are available at https://github.com/ControlNet/MATA.
- Abstract(参考訳): 近年の視覚言語モデルは知覚能力が強いが,その暗黙的推論は説明が困難であり,複雑なクエリに対する幻覚を生成するのが困難である。
構成的手法は解釈可能性を改善するが、ほとんどの場合、1つのエージェントまたは手作りパイプラインに依存しており、補完的なエージェント間でいつ協力するか、重複するエージェント間で競合するかは決定できない。
MATA(Multi-Agenthierarchical Hierarchical Trainable Automaton)は、学習可能なハイパーエージェントによってトップレベルの遷移が選択される視覚推論のための階層的有限状態オートマトンとして提示されるマルチエージェントシステムである。
各エージェントはハイパーオートマトンの状態に対応し、信頼性の高いマイクロ制御のための小さなルールベースのサブオートマトンを実行する。
すべてのエージェントは共有メモリを読み書きし、透過的な実行履歴を生成する。
ハイパーエージェントの遷移ポリシーを監督するために,トランジション・トラジェクトリ・ツリーを構築し,メモリ・ツー・ネスト状態のペアに変換し,教師付き微調整(SFT)のためのMATA-SFT-90Kデータセットを形成する。
遷移ポリシとしての微調整LDMは、エージェントのクエリとキャパシティを理解し、タスクを解決するための最適なエージェントを効率的に選択することができる。
複数の視覚的推論ベンチマークにおいて、MATAはモノリシックおよび合成ベースラインと比較して最先端の結果を達成する。
コードとデータセットはhttps://github.com/ControlNet/MATAで公開されている。
関連論文リスト
- AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。
通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T09:08:04Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [77.62279834617475]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文 参考訳(メタデータ) (2025-06-17T05:46:52Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models [45.930510174309845]
大規模言語モデル(LLM)は,最近,スプレッドシートの自動操作のために試みられている。
SheetAgentはPlanner、Informer、Retrieverの3つの共同モジュールで構成されている。
SheetAgentはベースラインよりも複数のベンチマークで20~40%のパスレート改善を実現している。
論文 参考訳(メタデータ) (2024-03-06T11:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。