論文の概要: Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning
- arxiv url: http://arxiv.org/abs/2507.10571v2
- Date: Fri, 18 Jul 2025 22:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:32.605186
- Title: Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning
- Title(参考訳): Orchestrator-Agent Trust: 信頼を意識したオーケストレーションとRAGに基づく推論を備えたモジュール型エージェントAI視覚分類システム
- Authors: Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas,
- Abstract要約: 本稿では,新しいモジュール型エージェントAI視覚分類フレームワークを提案する。
汎用マルチモーダルエージェントと非視覚的推論オーケストレータとRetrieval-Augmented Generationモジュールを統合している。
信頼を意識したオーケストレーションとRAGを用いたゼロショット設定では,77.94%の精度向上を実現し,全体の85.63%を達成した。
- 参考スコア(独自算出の注目度): 0.5374800961359304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern Artificial Intelligence (AI) increasingly relies on multi-agent architectures that blend visual and language understanding. Yet, a pressing challenge remains: How can we trust these agents especially in zero-shot settings with no fine-tuning? We introduce a novel modular Agentic AI visual classification framework that integrates generalist multimodal agents with a non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG) module. Applied to apple leaf disease diagnosis, we benchmark three configurations: (I) zero-shot with confidence-based orchestration, (II) fine-tuned agents with improved performance, and (III) trust-calibrated orchestration enhanced by CLIP-based image retrieval and re-evaluation loops. Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator modulates trust across agents. Our results demonstrate a 77.94\% accuracy improvement in the zero-shot setting using trust-aware orchestration and RAG, achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL displayed overconfidence. Furthermore, image-RAG grounded predictions with visually similar cases, enabling correction of agent overconfidence via iterative re-evaluation. The proposed system separates perception (vision agents) from meta-reasoning (orchestrator), enabling scalable and interpretable multi-agent AI. This blueprint is extensible to diagnostics, biology, and other trust-critical domains. All models, prompts, results, and system components including the complete software source code are openly released to support reproducibility, transparency, and community benchmarking at Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
- Abstract(参考訳): 現代の人工知能(AI)は、視覚と言語をブレンドするマルチエージェントアーキテクチャにますます依存している。
特にゼロショット設定で微調整なしで、これらのエージェントをどうやって信頼できるのか?
本稿では,汎用マルチモーダルエージェントと非視覚的推論オーケストレータとRetrieval-Augmented Generation (RAG)モジュールを統合した,新しいモジュール型エージェント型AI視覚分類フレームワークを提案する。
リンゴ葉病診断では, (I) ゼロショットと信頼に基づくオーケストレーション, (II) 改良された微調整エージェント, (III) CLIPに基づく画像検索と再評価ループによって強化された信頼校正オーケストレーションの3つの構成をベンチマークした。
信頼性キャリブレーション指標(ECE, OCR, CCC)を使用して、オーケストレータはエージェント間の信頼を変調する。
以上の結果から,信頼を意識したオーケストレーションとRAGを用いたゼロショット設定では,77.94\%の精度向上が達成され,全体の85.63\%が達成された。
GPT-4oはキャリブレーションが良く、Qwen-2.5-VLは自信過剰であった。
さらに、画像RAGは視覚的に類似した予測を行い、反復的再評価によるエージェント過信の補正を可能にした。
提案システムは、認識(ビジョンエージェント)をメタ推論(orchestrator)から切り離し、スケーラブルで解釈可能なマルチエージェントAIを実現する。
この青写真は診断、生物学、その他の信頼できる領域に拡張可能である。
Githubで再現性、透明性、コミュニティベンチマークをサポートするために、完全なソフトウェアソースコードを含むすべてのモデル、プロンプト、結果、システムコンポーネントがオープンソースでリリースされた。
関連論文リスト
- Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - CyberRAG: An agentic RAG cyber attack classification and reporting tool [1.0345929832241807]
CyberRAGは、リアルタイムで分類、説明、構造化されたサイバー攻撃の報告を提供するモジュール型のエージェントベースのフレームワークである。
従来のRAGシステムとは異なり、CyberRAGは動的制御フローと適応推論を可能にするエージェント設計を採用している。
サイバーRAGは1クラスあたり94%以上の精度で評価され、最終分類の精度は94.92%に向上した。
論文 参考訳(メタデータ) (2025-07-03T08:32:19Z) - GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning [9.24980723036746]
GAM-Agentは、視覚言語推論を強化するためのゲーム理論のマルチエージェントフレームワークである。
基本エージェント間の非ゼロサムゲームとして推論過程を定式化し、視覚的知覚サブタスクを専門とするゲームと、論理的一貫性と事実的正確性を検証する重要なエージェントを定式化する。
我々のアプローチはモジュール化され、スケーラブルで、一般化可能であり、信頼性と説明可能なマルチエージェントのマルチモーダル推論への道筋を提供する。
論文 参考訳(メタデータ) (2025-05-29T12:37:34Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks [39.084974125007165]
本稿では,複雑なタスクを解くための高性能なオープンソースエージェントシステムMagentic-Oneを紹介する。
Magentic-Oneでは、リードエージェントであるOrchestratorが進捗を追跡し、エラーからリカバリするための再計画を行うマルチエージェントアーキテクチャを使用している。
Magentic-Oneは3つの多様かつ挑戦的なエージェントベンチマークにおいて、最先端技術に対して統計的に競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-11-07T06:36:19Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z) - CCA: Collaborative Competitive Agents for Image Editing [55.500493143796405]
本稿では,CCA(Collaborative Competitive Agents)の新たな生成モデルを提案する。
複数のLarge Language Models (LLM) ベースのエージェントを使って複雑なタスクを実行する。
この論文の主な貢献は、制御可能な中間ステップと反復最適化を備えたマルチエージェントベースの生成モデルの導入である。
論文 参考訳(メタデータ) (2024-01-23T11:46:28Z) - Human-in-the-loop online multi-agent approach to increase
trustworthiness in ML models through trust scores and data augmentation [0.0]
本稿では,機械エージェントと人エージェントを併用したマルチエージェントシステムを提案する。
我々は,MNISTおよびFashionMNISTデータセットの劣化バージョンに基づくシステムの評価を行った。
論文 参考訳(メタデータ) (2022-04-29T17:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。